目录 / 文档-技术白皮书 / 19-EFT.WP.Methods.SynthData v1.0
一句话目标:建立从“需求→设计→生成→评估→合规发布”的可控合成数据统一口径与可执行规范,保证保真、隐私与可追溯并重。
I. 目的与定位
- 定义合成数据在 EFT 体系内的角色:支撑数据增广、隐私替代发布、鲁棒测试与仿真回放,贯通离线与流式两类场景。
- 给出跨模态(表格/时序/图/多模态)的通用方法论与约束表达,提供可审计的生成—评估闭环。
- 与配套卷形成分工:清洗(契约与到达时)、成像(物理可约束生成)、跨统计(评估与功效)协同运行。
II. 读者画像与阅读路径
- 读者:算法与数据科学、数据平台/安全与合规、产品与场景方、质量与审计。
- 快速路径:第2章(基线)→ 第5章(深度生成)→ 第7章(可控生成)→ 第11章(代表性)→ 第14章(运行时与 SLO)→ 第15章(用例)。
- 深入路径:第3章(模式绑定)与第6章(物理/因果/场景图)配合第12章(评估)闭环迭代。
III. 术语、计量与时间基口径
- 量纲与单位:所有进入方程的字段声明 unit(x) 与 dim(x),发布前强制 check_dim( y - f(x) )。
- 时基与到达时:内部统一 tau_mono,对外发布 ts,记录 offset/skew/J。到达时两口径并行:
- T_arr = ( 1 / c_ref ) * ( ∫ n_eff d ell )
- T_arr = ( ∫ ( n_eff / c_ref ) d ell )
- 差异度量:delta_form = | ( 1 / c_ref ) * ( ∫ n_eff d ell ) - ( ∫ ( n_eff / c_ref ) d ell ) |,契约 delta_form ≤ tol_Tarr。
- 评估距离族:KL, JS, W1, MMD, FID, KID;需显式核函数、带宽或特征抽取口径。
- 权重与代表性:抽样权重 w(i) 与有效样本量 n_eff = ( (∑ w_i)^2 ) / ( ∑ w_i^2 ) 用于覆盖/偏差分析。
- 冲突名强制:T_fil 与 T_trans 不可混用;n 与 n_eff 严格区分;公式与符号一律英文。
IV. 适用范围与边界条件
- 适用场景:表格、时序与事件流、图结构、多模态包;离线批生成与流式按需生成;A/B 沙盒与回放。
- 不在本卷范围:业务专属规范的取舍、法律条文解读的最终裁决、模型训练策略细节(仅规定接口与契约)。
- 依赖前置:标准模式与字段词条(见《EFT.WP.Core.DataSpec v1.0》)、采集与到达时(见《EFT.WP.Core.Sea v1.0》)、执行图与背压(见《EFT.WP.Core.Threads v1.0》)。
V. 与配套白皮书的交叉引用
- 清洗与契约:去重、参照完整性、量纲、到达时两口径(见《EFT.WP.Methods.Cleaning v1.0》)。
- 成像与物理一致:光路、PSF/噪声与时间/路径门控的可约束生成(见《EFT.WP.Methods.Imaging v1.0》)。
- 跨统计评估:功效、覆盖、漂移监测与多重比较(见《EFT.WP.Methods.CrossStats v1.0》)。
- 密度与归一化口径:测度显式、守恒校核(见《EFT.WP.Core.Density v1.0》)。
VI. 安全、隐私与合规边界
- 差分隐私预算:采用 DP(eps, delta) 机制与会计,累计预算 eps_total 不得超出策略卡;序贯生成需披露预算消耗。
- 攻击面评测:最小集合包含 membership/linkability/attribute inference;需给出风险上界与置信区间。
- 数据来源与许可:声明真实数据的许可与可用性边界,禁止反向可识别映射;发布包需携带 provenance 与 signature。
- 敏感字段:强制脱敏/屏蔽或合成替代;高敏场景需“隐私沙盒”隔离与只读通道。
VII. 出厂条件与验收标准
- 发布判据:
pass = fidelity_ok ∧ privacy_ok ∧ contract_ok ∧ manifest_signed- fidelity_ok:如 W1 ≤ tol_W1、FID ≤ tol_FID、covg ≥ covg_min。
- privacy_ok:eps_total ≤ bud_eps 且 MI ≤ tol_MI 与置信下界合规。
- contract_ok:check_dim(expr)=true、unique(pk)、foreign_key 满足、delta_form ≤ tol_Tarr。
- manifest_signed:hash_sha256(blob) 与 signature 验证通过。
- 回退策略:不达标时进入 rollback(tag_prev),并记录 drift_level 与处置动作。
VIII. 交付物与清单键
- 产出物:
- 设计:SynthSpec、约束与策略卡。
- 引擎:engine 与 seed/rng。
- 数据:ds_syn、bundle(多模态)。
- 报告:report.fidelity、report.privacy、report.contracts。
- 清单:manifest.synth。
- manifest.synth 最小键建议:
- 标识:TraceID, tag, version, timestamp.
- 生成:model, theta_ref, seed, rng.
- 时基与路径:tau_mono, ts_map, T_arr.forms, delta_form.
- 评估:metrics.W1/MMD/FID/KID, covg, n_eff.
- 隐私:eps_total, delta, attacks.{MI,linkability,attr_inf}。
- 契约:contracts.* 结果与阈值。
- 追溯:provenance, hash_sha256, signature.
IX. 文档结构与编号约定
- 编号:公设 P40x-*、方程 S40x-*、流程 M40-*、实现绑定 I40-*、契约 C40-*。
- 每章按照“范围→术语→P→S→M→契约→I→交叉→质量→小结”统一结构组织,避免歧义与口径漂移。
X. 质量与运行保障
- 质量目标:P99 延迟、吞吐与资源上限在 SLO 中明确;在线与离线指标可分层配置。
- 漂移与基线更新:部署后以 psi/W1/KL 周期监测,触发 recalibrate() 或回退;策略与阈值见第14章与附录D。
- 审计与留痕:全链路 TraceID 贯通执行图,重要节点落盘审计记录与可重放种子。
XI. 版本与兼容性
- 版本语义:MAJOR.MINOR.PATCH,破坏性变更须给出迁移脚本与闭包测试。
- 兼容约束:SynthSpec 与 manifest.synth 的模式演进遵循向后兼容优先;映射表收录于附录A。
小结
本卷以测度显式、契约可审计与隐私预算可会计为三大支柱,串起合成数据的端到端工程路径。读者可据此快速装配符合 pass 判据的生成—评估—发布流水线,并与《Methods.Cleaning》《Methods.Imaging》《Methods.CrossStats》在同一口径下协同演进。版权与许可(CC BY 4.0)
版权声明:除另有说明外,《能量丝理论》(含文本、图表、插图、符号与公式)的著作权由作者(“屠广林”先生)享有。
许可方式:本作品采用 Creative Commons 署名 4.0 国际许可协议(CC BY 4.0)进行许可;在注明作者与来源的前提下,允许为商业或非商业目的进行复制、转载、节选、改编与再分发。
署名格式(建议):作者:“屠广林”;作品:《能量丝理论》;来源:energyfilament.org;许可证:CC BY 4.0。
首次发布: 2025-11-11|当前版本:v5.1
协议链接:https://creativecommons.org/licenses/by/4.0/