目录文档-技术白皮书(V5.05)19-EFT.WP.Methods.SynthData v1.0

前言


一句话目标:建立从“需求→设计→生成→评估→合规发布”的可控合成数据统一口径与可执行规范,保证保真、隐私与可追溯并重。


I. 目的与定位


II. 读者画像与阅读路径


III. 术语、计量与时间基口径

  1. 量纲与单位:所有进入方程的字段声明 unit(x) 与 dim(x),发布前强制 check_dim( y - f(x) )。
  2. 时基与到达时:内部统一 tau_mono,对外发布 ts,记录 offset/skew/J。到达时两口径并行:
    • T_arr = ( 1 / c_ref ) * ( ∫ n_eff d ell )
    • T_arr = ( ∫ ( n_eff / c_ref ) d ell )
    • 差异度量:delta_form = | ( 1 / c_ref ) * ( ∫ n_eff d ell ) - ( ∫ ( n_eff / c_ref ) d ell ) |,契约 delta_form ≤ tol_Tarr。
  3. 评估距离族:KL, JS, W1, MMD, FID, KID;需显式核函数、带宽或特征抽取口径。
  4. 权重与代表性:抽样权重 w(i) 与有效样本量 n_eff = ( (∑ w_i)^2 ) / ( ∑ w_i^2 ) 用于覆盖/偏差分析。
  5. 冲突名强制:T_fil 与 T_trans 不可混用;n 与 n_eff 严格区分;公式与符号一律英文。

IV. 适用范围与边界条件


V. 与配套白皮书的交叉引用


VI. 安全、隐私与合规边界


VII. 出厂条件与验收标准

  1. 发布判据:
    pass = fidelity_ok ∧ privacy_ok ∧ contract_ok ∧ manifest_signed
    • fidelity_ok:如 W1 ≤ tol_W1、FID ≤ tol_FID、covg ≥ covg_min。
    • privacy_ok:eps_total ≤ bud_eps 且 MI ≤ tol_MI 与置信下界合规。
    • contract_ok:check_dim(expr)=true、unique(pk)、foreign_key 满足、delta_form ≤ tol_Tarr。
    • manifest_signed:hash_sha256(blob) 与 signature 验证通过。
  2. 回退策略:不达标时进入 rollback(tag_prev),并记录 drift_level 与处置动作。

VIII. 交付物与清单键

  1. 产出物:
    • 设计:SynthSpec、约束与策略卡。
    • 引擎:engine 与 seed/rng。
    • 数据:ds_syn、bundle(多模态)。
    • 报告:report.fidelity、report.privacy、report.contracts。
    • 清单:manifest.synth。
  2. manifest.synth 最小键建议:
    • 标识:TraceID, tag, version, timestamp.
    • 生成:model, theta_ref, seed, rng.
    • 时基与路径:tau_mono, ts_map, T_arr.forms, delta_form.
    • 评估:metrics.W1/MMD/FID/KID, covg, n_eff.
    • 隐私:eps_total, delta, attacks.{MI,linkability,attr_inf}。
    • 契约:contracts.* 结果与阈值。
    • 追溯:provenance, hash_sha256, signature.

IX. 文档结构与编号约定


X. 质量与运行保障


XI. 版本与兼容性


小结

本卷以测度显式、契约可审计与隐私预算可会计为三大支柱,串起合成数据的端到端工程路径。读者可据此快速装配符合 pass 判据的生成—评估—发布流水线,并与《Methods.Cleaning》《Methods.Imaging》《Methods.CrossStats》在同一口径下协同演进。

版权与许可:除另有说明外,《能量丝理论》(含文本、图表、插图、符号与公式)的著作权由作者(屠广林)享有。
许可方式(CC BY 4.0):在注明作者与来源的前提下,允许复制、转载、节选、改编与再分发。
署名格式(建议):作者:屠广林|作品:《能量丝理论》|来源:energyfilament.org|许可证:CC BY 4.0
验证召集: 作者独立自费、无雇主无资助;下一阶段将优先在最愿意公开讨论、公开复现、公开挑错的环境中推进落地,不限国家。欢迎各国媒体与同行抓住窗口组织验证,并与我们联系。
版本信息: 首次发布:2025-11-11 | 当前版本:v6.0+5.05