目录 / 文档-技术白皮书 / 19-EFT.WP.Methods.SynthData v1.0
一句话目标:提供三类端到端参考路径(表格隐私合成、成像仿真+学习、在线回放 A/B 沙盒),以 P/S/M/I/契约 统一交付与审计。
I. 范围与对象
- 范围
- 从需求→设计→生成→评估→发布的端到端落地示例,覆盖离线与流式两种运行形态。
- 每个用例产出 manifest.synth.*、契约评估与签名,满足回放与审计。
- 对象
- D_real, D_syn, SynthSpec, engine, policy.*, contracts.*, TraceID。
- 质量与风险面:fidelity, utility, privacy, timepath, drift, SLO。
- 边界
- 不依赖特定厂商实现;接口遵循本卷 I40-* 与统一清单口径。
- 约束:check_dim(expr) 通过;delta_form ≤ tol_Tarr;eps_total ≤ eps_budget。
II. 名词与变量
- 数据与分布:p_data, p_model(x; theta), D_real, D_syn, N_real, N_syn。
- 评估:W1, MMD, FID, KID, covg, downstream_metric。
- 隐私:eps, delta, eps_total, MI_risk。
- 时基与到达时:tau_mono, ts, T_arr, gamma(ell), delta_form, Delta_t。
- 运行:B, K, latency_ms_p99, rho, drop_rate。
- 合同与清单:contracts.*, manifest.synth.*, signature。
III. 公设 P415-*
- P415-1(复现实验):任一用例必须由 {seed, engine/version, SynthSpec} 唯一重放。
- P415-2(口径先行):度量与阈值在生成前冻结;发布前禁止“阈值后移”。
- P415-3(无泄漏):D_real 的训练/验证/测试与评估样本拆分可追溯且无交集。
- P415-4(时间/路径一致):涉时样本必须记录 T_arr 两口径并校核 delta_form。
- P415-5(隐私预算闭环):eps_total 全链路会计,越界熔断并提供回退包。
- P415-6(契约闸门):assert_synth_contract 通过方可 freeze_release_synth。
IV. 最小方程 S415-*
- S415-1(保真距离):W1 = ( ∫ | F_real(x) - F_syn(x) | dx );MMD = || ( 1/N ∑ phi(x_i) - 1/M ∑ phi(x'_j) ) ||^2。
- S415-2(效用保持):utility_gap = | metric(model, D_real) - metric(model, D_syn) |。
- S415-3(覆盖度):covg = ( | support(D_syn) ∩ support(D_real) | ) / | support(D_real) |。
- S415-4(隐私会计):eps_total = accountant( { (eps_i, delta_i) } )。
- S415-5(到达时两口径):T_arr = ( 1 / c_ref ) * ( ∫ n_eff d ell ) 与 T_arr = ( ∫ ( n_eff / c_ref ) d ell ),delta_form = | … |。
- S415-6(运行稳态):rho = lambda_in / mu_eff < 1,latency ≈ W_q + T_serv(B)。
V. 合成流程 M40-15(三类端到端)
- M40-15a 表格隐私合成(离线)
- 需求冻结:目标字段、约束、eps_budget、阈值 {W1, MMD, utility_gap}。
- 模式绑定:design_synth_spec;register_schema;validate_dataset。
- 引擎拟合:fit_engine(ds=D_real, model=copula|flow, privacy=DP(eps,delta))。
- 采样生成:sample(engine, n=N_syn, seed);enforce_constraints(唯一/外键/范围)。
- 评估与对齐:measure_fidelity(W1, MMD, covg);measure_privacy(MI_risk);必要时 balance_distribution。
- 契约闸门:assert_synth_contract;签名并 freeze_release_synth。
- 落盘清单:manifest.synth 含 TraceID, seed, eps_total, metrics.*。
- M40-15b 成像仿真 + 学习(离线+下游)
- 需求冻结:成像链路与任务(如 seg/det)、物理约束与标定口径。
- 物理/场景:compose_multimodal,场景图 G=(V,E) 与参数扫掠(PRNU/DSNU、PSF/MTF 见成像卷)。
- 渲染与对齐:生成 D_syn(image, label);align_timepath 写入 T_arr 两口径。
- 下游评估:在真实验证集上比较 downstream_metric 与合成训练的 utility_gap。
- 纠偏再生成:balance_distribution(光照/姿态/尺度);循环至指标收敛。
- 契约闸门与发布:assert_synth_contract → freeze_release_synth。
- 清单与追溯:记录光谱与几何口径、设备标定引用、manifest.synth.imaging.*。
- M40-15c 在线合成回放 A/B 沙盒(流式)
- 接入:按 policy.runtime 建立 stream_synth,目标 latency_ms_p99 与 rho_max。
- 随机化:对流入请求进行分层随机化与曝光控制(见 CrossStats 第8章)。
- 回放与注入:sample(engine, n, condition) 将合成事件注入沙盒;timepath_hardening 保证 delta_form。
- 实验读出:run_ab_test(stream, metric, alpha_spending);detect_drift 持续监测。
- 会计与熔断:privacy_accountant;越界触发 circuit_open 与降级。
- 审计与发布:emit_runtime_manifest;阶段性冻结 bundle 与报告。
VI. 契约与断言
- C40-1501 表格隐私合成
- W1 ≤ W1_max,MMD ≤ mmd_max,covg ≥ covg_min;
- utility_gap ≤ gap_max;eps_total ≤ eps_budget;unique(pk) 与 foreign_key 全通过。
- C40-1502 成像仿真 + 学习
- 下游 utility_gap ≤ gap_max;FID|KID ≤ fid_max;
- 光学与计量口径一致(见成像卷第4/5章);delta_form ≤ tol_Tarr。
- C40-1503 在线回放 A/B 沙盒
- latency_ms_p99 ≤ target_p99;rho ≤ rho_max;drop_rate ≤ tol_drop;
- alpha_spent ≤ alpha_budget;eps_total ≤ eps_budget。
VII. 实现绑定 I40-15*
- 表格隐私合成
I40-31 design_synth_spec → I40-41 fit_engine → I40-52 sample → I40-61 enforce_constraints → I40-121 measure_fidelity → I40-101 measure_privacy → I40-131 assert_synth_contract → I40-141 freeze_release_synth。 - 成像仿真 + 学习
I40-61 compose_multimodal → I40-81 align_timepath → I40-121 measure_fidelity(FID|KID) → I40-111 balance_distribution → I40-131 assert_synth_contract → I40-141 freeze_release_synth。 - 在线回放 A/B 沙盒
- I40-141 stream_synth → I40-151 privacy_accountant → I40-171 detect_drift → I40-181 run_ab_test → I40-191 emit_runtime_manifest。
- 不变量:idempotent(TraceID, seed),rho < 1,delta_form ≤ tol_Tarr,eps_total ≤ eps_budget。
VIII. 交叉引用
- 见《EFT.WP.Methods.Cleaning v1.0》 第10/11章(合规/发布冻结、流式与背压)对发布与运行口径。
- 见《EFT.WP.Methods.Imaging v1.0》 第4/5/9/11章(计量、PSF/MTF、几何、HDR)对仿真口径。
- 见《EFT.WP.Methods.CrossStats v1.0》 第7/8/14章(漂移、A/B、SLO)对监测与审计。
- 见《EFT.WP.Core.DataSpec v1.0》 清单与主键/外键契约。
IX. 质量度量与风控
- SLI
- 离线:W1, MMD, FID|KID, utility_gap, covg。
- 流式:TS.sli.rho, TS.sli.latency_p99, TS.sli.drop_rate, TS.sli.delta_form, TS.sli.eps_total。
- 风控与回退
- 保真越界:触发再加权/再采样;必要时降低复杂度或回退上版 engine。
- 隐私越界:熔断生成路径,切换到低敏度模板或停止实验。
- 到达时越界:timepath_hardening 与限流涉时模态。
- 运行越界:rate_limit、auto_batcher、degrade(profile)、跨区迁移。
小结
- 本章以三类参考路径将 P40x-* / S40x-* / M40-* / I40-* / C40-* 贯通为可复现工法;
- 产出 manifest.synth.* 与审计报告可直接并入目录与合规模块;
- 通过契约闸门与回退策略,确保在保真、效用、隐私、到达时与 SLO 之间取得工程最优平衡。
版权与许可(CC BY 4.0)
版权声明:除另有说明外,《能量丝理论》(含文本、图表、插图、符号与公式)的著作权由作者(“屠广林”先生)享有。
许可方式:本作品采用 Creative Commons 署名 4.0 国际许可协议(CC BY 4.0)进行许可;在注明作者与来源的前提下,允许为商业或非商业目的进行复制、转载、节选、改编与再分发。
署名格式(建议):作者:“屠广林”;作品:《能量丝理论》;来源:energyfilament.org;许可证:CC BY 4.0。
首次发布: 2025-11-11|当前版本:v5.1
协议链接:https://creativecommons.org/licenses/by/4.0/