目录文档-技术白皮书(V5.05)19-EFT.WP.Methods.SynthData v1.0

第1章 合成数据域定义与范围


一句话目标:界定合成数据在 EFT 体系中的对象、输入/输出、约束与边界,确立可追溯、可审计、可重现的最小闭环。


I. 范围与对象

  1. 输入对象
    • D_real(真实数据,已通过模式与契约校验,见《Methods.Cleaning v1.0》)
    • SRef(标准模式/字段词条/主外键/单位量纲)
    • 约束集 Rules(唯一性、参照完整性、物理/几何/能量守恒、时间/路径一致)
    • 目标分布与效用 Goals = {fidelity, utility}
    • 隐私预算与策略 Privacy = {eps, delta, budget, accounting}
    • 运行约束 Runtime = {SLO, cap, chan, retry}(见《EFT.WP.Core.Threads v1.0》)
  2. 输出对象
    • D_syn(单模态合成数据)或 Bundle = {Tab, TS, Image, Text, Audio, Graph}(多模态包)
    • 评估报告 {report.fidelity, report.privacy, report.contracts}
    • 发布清单 manifest.synth 与签名 signature
  3. 适用形态
    表格、时序与事件流、图结构、影像与多模态组合,覆盖离线批生成与流式按需生成。
  4. 边界与非目标
    • 不裁决法律条文,仅提供合规接口与证据留存。
    • 不规定具体训练技巧与工程细节,统一以 I40-* 接口对外。

II. 名词与变量


III. 公设 P401-*


IV. 最小方程 S401-*


V. 合成流程 M40-1(总流程)

  1. 就绪条件
    • register_schema(SRef);validate_dataset(D_real, Rules);repair_units 与 check_dim 通过。
    • 明确 Goals, Privacy, Runtime 与 SynthSpec 初稿。
  2. 设计与建模
    • 选择引擎 engine ∈ {copula, VAE, GAN, flow, diffusion, SCM};设定先验/正则与控制变量 c。
    • 若含物理/几何约束,建立 SCM 或场景图 G=(V,E)。
  3. 训练与校准
    fit_engine(D_real, SynthSpec);跟踪收敛与早停;锁定 theta_ref 与版本。
  4. 采样与组装
    sample(engine, n, condition=c, seed);多模态以 compose_multimodal 组装 Bundle。
  5. 规则执行
    enforce_constraints(D_syn, Rules);deduplicate/foreign_key/unique;align_timepath 写入 T_arr 两口径与 delta_form。
  6. 评估与阈值
    • measure_fidelity(D_real, D_syn, metrics={W1,MMD,FID,KID,covg});
    • measure_privacy(D_real, D_syn, attacks, eps_delta);
    • 产出不确定度与覆盖度,计算 n_eff。
  7. 契约与发布
    assert_synth_contract(contracts);若 pass,执行 freeze_release_synth(D_syn, tag) 并签名;否则 rollback(tag_prev)。

VI. 契约与断言(示例 C40-*)


VII. 实现绑定 I40-*(本章锚点)

不变量:reproducible(seed);sum(weights)/N ≈ 1;eps_total 不超预算;delta_form ≤ tol_Tarr;unit/dim 校核通过。


VIII. 交叉引用


IX. 质量度量与风控


小结

本章确立了 SynthData 的对象、术语、不可协商公设、必要方程与总流程 M40-1,并给出发布所需的契约闸门与实现锚点。后续章节将围绕引擎、可控性、隐私与评估逐步展开,并保持与 Cleaning/Imaging/CrossStats 的口径一致。

版权与许可:除另有说明外,《能量丝理论》(含文本、图表、插图、符号与公式)的著作权由作者(屠广林)享有。
许可方式(CC BY 4.0):在注明作者与来源的前提下,允许复制、转载、节选、改编与再分发。
署名格式(建议):作者:屠广林|作品:《能量丝理论》|来源:energyfilament.org|许可证:CC BY 4.0
验证召集: 作者独立自费、无雇主无资助;下一阶段将优先在最愿意公开讨论、公开复现、公开挑错的环境中推进落地,不限国家。欢迎各国媒体与同行抓住窗口组织验证,并与我们联系。
版本信息: 首次发布:2025-11-11 | 当前版本:v6.0+5.05