目录 / 文档-技术白皮书 / 19-EFT.WP.Methods.SynthData v1.0
一句话目标:界定合成数据在 EFT 体系中的对象、输入/输出、约束与边界,确立可追溯、可审计、可重现的最小闭环。
I. 范围与对象
- 输入对象
- D_real(真实数据,已通过模式与契约校验,见《Methods.Cleaning v1.0》)
- SRef(标准模式/字段词条/主外键/单位量纲)
- 约束集 Rules(唯一性、参照完整性、物理/几何/能量守恒、时间/路径一致)
- 目标分布与效用 Goals = {fidelity, utility}
- 隐私预算与策略 Privacy = {eps, delta, budget, accounting}
- 运行约束 Runtime = {SLO, cap, chan, retry}(见《EFT.WP.Core.Threads v1.0》)
- 输出对象
- D_syn(单模态合成数据)或 Bundle = {Tab, TS, Image, Text, Audio, Graph}(多模态包)
- 评估报告 {report.fidelity, report.privacy, report.contracts}
- 发布清单 manifest.synth 与签名 signature
- 适用形态
表格、时序与事件流、图结构、影像与多模态组合,覆盖离线批生成与流式按需生成。 - 边界与非目标
- 不裁决法律条文,仅提供合规接口与证据留存。
- 不规定具体训练技巧与工程细节,统一以 I40-* 接口对外。
II. 名词与变量
- 数据与分布:D_real ~ p_data(x), D_syn ~ p_model(x; theta), theta, z ~ p(z)
- 条件与控制:c(condition/prompt), SCM, G=(V,E)(场景图)
- 时间与路径:tau_mono, ts, gamma(ell), T_arr, delta_form, Delta_t
- 计量与单位:unit(x), dim(x), check_dim(expr)
- 权重与代表性:w(i), pi(i), n_eff = ( (∑ w)^2 ) / ( ∑ w^2 )
- 距离与指标:KL, JS, W1, MMD, FID, KID, covg
- 隐私与风险:eps, delta, eps_total, MI(membership inference risk)
- 质量与运行:q_score, psi(population stability index), rho(负载), P99
III. 公设 P401-*
- P401-1(可追溯):任何生成与评估都必须落盘 TraceID、seed、rng 与 provenance。
- P401-2(模式先行):先绑定 SRef 与 Rules,再选择引擎与采样,禁止无模式生成。
- P401-3(量纲守恒):进入方程的字段强制 unit/dim,发布前执行 check_dim(expr)。
- P401-4(时基一体化):内部 tau_mono,外部 ts;发布时记录 offset/skew/J。
- P401-5(到达时两口径):涉及路径/传播必须并行计算
T_arr = ( 1 / c_ref ) * ( ∫ n_eff d ell ) 与 T_arr = ( ∫ ( n_eff / c_ref ) d ell ),并评估 delta_form。 - P401-6(隐私预算显式):DP(eps, delta) 会计必须显式,累计 eps_total 不得超出策略卡。
- P401-7(发布闸门):仅当 pass = fidelity_ok ∧ privacy_ok ∧ contract_ok ∧ manifest_signed 时可发布。
- P401-8(可重现):reproducible(seed);相同 SynthSpec、seed/rng 与版本应产出等价样本。
- P401-9(最小泄漏):对 MI/linkability/attribute 必须有风险上界与置信下界披露。
- P401-10(流式稳定):在执行图 G=(V,E) 上满足队列稳定与背压约束,见《Core.Threads v1.0》。
IV. 最小方程 S401-*
- S401-1(代表性与权重):n_eff = ( (∑ w_i)^2 ) / ( ∑ w_i^2 );W_norm = ( ∑ w_i ) / N。
- S401-2(到达时差异):delta_form = | ( 1 / c_ref ) * ( ∫ n_eff d ell ) - ( ∫ ( n_eff / c_ref ) d ell ) |。
- S401-3(时间映射):ts = map_tau_to_ts( tau_mono; offset, skew ),抖动上界记作 J。
- S401-4(隐私会计,简单组合):eps_total = ( ∑ eps_k ),delta_total = ( ∑ delta_k )。
- S401-5(覆盖率)(离散情形):covg = | supp(D_syn) ∩ supp(D_real) | / | supp(D_real) |。
- S401-6(发布判据):pass = fidelity_ok ∧ privacy_ok ∧ contract_ok ∧ manifest_signed。
V. 合成流程 M40-1(总流程)
- 就绪条件
- register_schema(SRef);validate_dataset(D_real, Rules);repair_units 与 check_dim 通过。
- 明确 Goals, Privacy, Runtime 与 SynthSpec 初稿。
- 设计与建模
- 选择引擎 engine ∈ {copula, VAE, GAN, flow, diffusion, SCM};设定先验/正则与控制变量 c。
- 若含物理/几何约束,建立 SCM 或场景图 G=(V,E)。
- 训练与校准
fit_engine(D_real, SynthSpec);跟踪收敛与早停;锁定 theta_ref 与版本。 - 采样与组装
sample(engine, n, condition=c, seed);多模态以 compose_multimodal 组装 Bundle。 - 规则执行
enforce_constraints(D_syn, Rules);deduplicate/foreign_key/unique;align_timepath 写入 T_arr 两口径与 delta_form。 - 评估与阈值
- measure_fidelity(D_real, D_syn, metrics={W1,MMD,FID,KID,covg});
- measure_privacy(D_real, D_syn, attacks, eps_delta);
- 产出不确定度与覆盖度,计算 n_eff。
- 契约与发布
assert_synth_contract(contracts);若 pass,执行 freeze_release_synth(D_syn, tag) 并签名;否则 rollback(tag_prev)。
VI. 契约与断言(示例 C40-*)
- C40-101(模式与参照):unique(pk) = true,foreign_key = true。
- C40-102(量纲):check_dim( y - f(x) ) = true。
- C40-103(到达时):delta_form ≤ tol_Tarr。
- C40-104(保真):W1 ≤ tol_W1,MMD ≤ tol_MMD,FID ≤ tol_FID,covg ≥ covg_min。
- C40-105(隐私):eps_total ≤ bud_eps,MI ≤ tol_MI(并附置信下界)。
- C40-106(规模与覆盖):|D_syn| ≥ N_min,关键枚举/分层的 covg_group ≥ covg_min。
- C40-107(运行):latency_p99 ≤ SLO.latency,error_rate ≤ SLO.error,流式 rho < 1。
VII. 实现绑定 I40-*(本章锚点)
- I40-11 design_synth_spec(schema, goals, constraints) -> SynthSpec
- I40-12 fit_engine(ds, model, priors|arch, privacy) -> engine
- I40-13 sample(engine, n, condition, seed) -> ds_syn
- I40-14 enforce_constraints(ds_syn, rules) -> ds_syn'
- I40-15 align_timepath(ds_syn, ref) -> ds_syn'(记录 T_arr 两口径与 delta_form)
- I40-16 measure_fidelity(real, syn, metrics) -> report
- I40-17 measure_privacy(real, syn, attacks, eps_delta) -> report
- I40-18 assert_synth_contract(ds_syn, contracts) -> report
- I40-19 freeze_release_synth(ds_syn, tag) -> manifest.synth
不变量:reproducible(seed);sum(weights)/N ≈ 1;eps_total 不超预算;delta_form ≤ tol_Tarr;unit/dim 校核通过。
VIII. 交叉引用
- 清洗:单位/量纲、两口径、时基与路径、契约与发布,见《EFT.WP.Methods.Cleaning v1.0》第4/5/6/10章。
- 成像:物理可约束生成、PSF/噪声与时间门控,见《EFT.WP.Methods.Imaging v1.0》第5/7/13章。
- 跨统计:覆盖/功效/漂移与多重比较,见《EFT.WP.Methods.CrossStats v1.0》第4/6/7/14章。
- Core:DataSpec/Sea/Threads/Density 的模式、采集、执行图与测度,见《EFT.WP.Core.*》。
IX. 质量度量与风控
- SLI/SLO:latency_ms_p99, throughput, error_rate, drift_alert_rate, retrain_mttr。
- 漂移与基线更新:psi/W1/KL 周期监测;触发阈值后执行 recalibrate(engine) 或 rollback。
- 审计与回放:保存 TraceID, seed, rng, theta_ref,支持“同清单重放”。
小结
本章确立了 SynthData 的对象、术语、不可协商公设、必要方程与总流程 M40-1,并给出发布所需的契约闸门与实现锚点。后续章节将围绕引擎、可控性、隐私与评估逐步展开,并保持与 Cleaning/Imaging/CrossStats 的口径一致。版权与许可(CC BY 4.0)
版权声明:除另有说明外,《能量丝理论》(含文本、图表、插图、符号与公式)的著作权由作者(“屠广林”先生)享有。
许可方式:本作品采用 Creative Commons 署名 4.0 国际许可协议(CC BY 4.0)进行许可;在注明作者与来源的前提下,允许为商业或非商业目的进行复制、转载、节选、改编与再分发。
署名格式(建议):作者:“屠广林”;作品:《能量丝理论》;来源:energyfilament.org;许可证:CC BY 4.0。
首次发布: 2025-11-11|当前版本:v5.1
协议链接:https://creativecommons.org/licenses/by/4.0/