19-EFT.WP.Methods.SynthData v1.0 | 前言 | 能量丝理论 | Energy Filament Theory (EFT)

前言

一句话目标：建立从“需求→设计→生成→评估→合规发布”的可控合成数据统一口径与可执行规范，保证保真、隐私与可追溯并重。

I. 目的与定位

定义合成数据在 EFT 体系内的角色：支撑数据增广、隐私替代发布、鲁棒测试与仿真回放，贯通离线与流式两类场景。
给出跨模态（表格/时序/图/多模态）的通用方法论与约束表达，提供可审计的生成—评估闭环。
与配套卷形成分工：清洗（契约与到达时）、成像（物理可约束生成）、跨统计（评估与功效）协同运行。

II. 读者画像与阅读路径

读者：算法与数据科学、数据平台/安全与合规、产品与场景方、质量与审计。
快速路径：第2章（基线）→ 第5章（深度生成）→ 第7章（可控生成）→ 第11章（代表性）→ 第14章（运行时与 SLO）→ 第15章（用例）。
深入路径：第3章（模式绑定）与第6章（物理/因果/场景图）配合第12章（评估）闭环迭代。

III. 术语、计量与时间基口径

量纲与单位：所有进入方程的字段声明 unit(x) 与 dim(x)，发布前强制 check_dim( y - f(x) )。
时基与到达时：内部统一 tau_mono，对外发布 ts，记录 offset/skew/J。到达时两口径并行：
- T_arr = ( 1 / c_ref ) * ( ∫ n_eff d ell )
- T_arr = ( ∫ ( n_eff / c_ref ) d ell )
- 差异度量：delta_form = | ( 1 / c_ref ) * ( ∫ n_eff d ell ) - ( ∫ ( n_eff / c_ref ) d ell ) |，契约 delta_form ≤ tol_Tarr。
评估距离族：KL, JS, W1, MMD, FID, KID；需显式核函数、带宽或特征抽取口径。
权重与代表性：抽样权重 w(i) 与有效样本量 n_eff = ( (∑ w_i)^2 ) / ( ∑ w_i^2 ) 用于覆盖/偏差分析。
冲突名强制：T_fil 与 T_trans 不可混用；n 与 n_eff 严格区分；公式与符号一律英文。

IV. 适用范围与边界条件

适用场景：表格、时序与事件流、图结构、多模态包；离线批生成与流式按需生成；A/B 沙盒与回放。
不在本卷范围：业务专属规范的取舍、法律条文解读的最终裁决、模型训练策略细节（仅规定接口与契约）。
依赖前置：标准模式与字段词条（见《EFT.WP.Core.DataSpec v1.0》）、采集与到达时（见《EFT.WP.Core.Sea v1.0》）、执行图与背压（见《EFT.WP.Core.Threads v1.0》）。

V. 与配套白皮书的交叉引用

清洗与契约：去重、参照完整性、量纲、到达时两口径（见《EFT.WP.Methods.Cleaning v1.0》）。
成像与物理一致：光路、PSF/噪声与时间/路径门控的可约束生成（见《EFT.WP.Methods.Imaging v1.0》）。
跨统计评估：功效、覆盖、漂移监测与多重比较（见《EFT.WP.Methods.CrossStats v1.0》）。
密度与归一化口径：测度显式、守恒校核（见《EFT.WP.Core.Density v1.0》）。

VI. 安全、隐私与合规边界

差分隐私预算：采用 DP(eps, delta) 机制与会计，累计预算 eps_total 不得超出策略卡；序贯生成需披露预算消耗。
攻击面评测：最小集合包含 membership/linkability/attribute inference；需给出风险上界与置信区间。
数据来源与许可：声明真实数据的许可与可用性边界，禁止反向可识别映射；发布包需携带 provenance 与 signature。
敏感字段：强制脱敏/屏蔽或合成替代；高敏场景需“隐私沙盒”隔离与只读通道。

VII. 出厂条件与验收标准

发布判据：
pass = fidelity_ok ∧ privacy_ok ∧ contract_ok ∧ manifest_signed
- fidelity_ok：如 W1 ≤ tol_W1、FID ≤ tol_FID、covg ≥ covg_min。
- privacy_ok：eps_total ≤ bud_eps 且 MI ≤ tol_MI 与置信下界合规。
- contract_ok：check_dim(expr)=true、unique(pk)、foreign_key 满足、delta_form ≤ tol_Tarr。
- manifest_signed：hash_sha256(blob) 与 signature 验证通过。
回退策略：不达标时进入 rollback(tag_prev)，并记录 drift_level 与处置动作。

VIII. 交付物与清单键

产出物：
- 设计：SynthSpec、约束与策略卡。
- 引擎：engine 与 seed/rng。
- 数据：ds_syn、bundle（多模态）。
- 报告：report.fidelity、report.privacy、report.contracts。
- 清单：manifest.synth。
manifest.synth 最小键建议：
- 标识：TraceID, tag, version, timestamp.
- 生成：model, theta_ref, seed, rng.
- 时基与路径：tau_mono, ts_map, T_arr.forms, delta_form.
- 评估：metrics.W1/MMD/FID/KID, covg, n_eff.
- 隐私：eps_total, delta, attacks.{MI,linkability,attr_inf}。
- 契约：contracts.* 结果与阈值。
- 追溯：provenance, hash_sha256, signature.

IX. 文档结构与编号约定

编号：公设 P40x-*、方程 S40x-*、流程 M40-*、实现绑定 I40-*、契约 C40-*。
每章按照“范围→术语→P→S→M→契约→I→交叉→质量→小结”统一结构组织，避免歧义与口径漂移。

X. 质量与运行保障

质量目标：P99 延迟、吞吐与资源上限在 SLO 中明确；在线与离线指标可分层配置。
漂移与基线更新：部署后以 psi/W1/KL 周期监测，触发 recalibrate() 或回退；策略与阈值见第14章与附录D。
审计与留痕：全链路 TraceID 贯通执行图，重要节点落盘审计记录与可重放种子。

XI. 版本与兼容性

版本语义：MAJOR.MINOR.PATCH，破坏性变更须给出迁移脚本与闭包测试。
兼容约束：SynthSpec 与 manifest.synth 的模式演进遵循向后兼容优先；映射表收录于附录A。

小结

本卷以测度显式、契约可审计与隐私预算可会计为三大支柱，串起合成数据的端到端工程路径。读者可据此快速装配符合 pass 判据的生成—评估—发布流水线，并与《Methods.Cleaning》《Methods.Imaging》《Methods.CrossStats》在同一口径下协同演进。