目录文档-技术白皮书19-EFT.WP.Methods.SynthData v1.0

第1章 合成数据域定义与范围


一句话目标:界定合成数据在 EFT 体系中的对象、输入/输出、约束与边界,确立可追溯、可审计、可重现的最小闭环。


I. 范围与对象

  1. 输入对象
    • D_real(真实数据,已通过模式与契约校验,见《Methods.Cleaning v1.0》)
    • SRef(标准模式/字段词条/主外键/单位量纲)
    • 约束集 Rules(唯一性、参照完整性、物理/几何/能量守恒、时间/路径一致)
    • 目标分布与效用 Goals = {fidelity, utility}
    • 隐私预算与策略 Privacy = {eps, delta, budget, accounting}
    • 运行约束 Runtime = {SLO, cap, chan, retry}(见《EFT.WP.Core.Threads v1.0》)
  2. 输出对象
    • D_syn(单模态合成数据)或 Bundle = {Tab, TS, Image, Text, Audio, Graph}(多模态包)
    • 评估报告 {report.fidelity, report.privacy, report.contracts}
    • 发布清单 manifest.synth 与签名 signature
  3. 适用形态
    表格、时序与事件流、图结构、影像与多模态组合,覆盖离线批生成与流式按需生成。
  4. 边界与非目标
    • 不裁决法律条文,仅提供合规接口与证据留存。
    • 不规定具体训练技巧与工程细节,统一以 I40-* 接口对外。

II. 名词与变量


III. 公设 P401-*


IV. 最小方程 S401-*


V. 合成流程 M40-1(总流程)

  1. 就绪条件
    • register_schema(SRef);validate_dataset(D_real, Rules);repair_units 与 check_dim 通过。
    • 明确 Goals, Privacy, Runtime 与 SynthSpec 初稿。
  2. 设计与建模
    • 选择引擎 engine ∈ {copula, VAE, GAN, flow, diffusion, SCM};设定先验/正则与控制变量 c。
    • 若含物理/几何约束,建立 SCM 或场景图 G=(V,E)。
  3. 训练与校准
    fit_engine(D_real, SynthSpec);跟踪收敛与早停;锁定 theta_ref 与版本。
  4. 采样与组装
    sample(engine, n, condition=c, seed);多模态以 compose_multimodal 组装 Bundle。
  5. 规则执行
    enforce_constraints(D_syn, Rules);deduplicate/foreign_key/unique;align_timepath 写入 T_arr 两口径与 delta_form。
  6. 评估与阈值
    • measure_fidelity(D_real, D_syn, metrics={W1,MMD,FID,KID,covg});
    • measure_privacy(D_real, D_syn, attacks, eps_delta);
    • 产出不确定度与覆盖度,计算 n_eff。
  7. 契约与发布
    assert_synth_contract(contracts);若 pass,执行 freeze_release_synth(D_syn, tag) 并签名;否则 rollback(tag_prev)。

VI. 契约与断言(示例 C40-*)


VII. 实现绑定 I40-*(本章锚点)

不变量:reproducible(seed);sum(weights)/N ≈ 1;eps_total 不超预算;delta_form ≤ tol_Tarr;unit/dim 校核通过。


VIII. 交叉引用


IX. 质量度量与风控


小结

本章确立了 SynthData 的对象、术语、不可协商公设、必要方程与总流程 M40-1,并给出发布所需的契约闸门与实现锚点。后续章节将围绕引擎、可控性、隐私与评估逐步展开,并保持与 Cleaning/Imaging/CrossStats 的口径一致。

版权与许可(CC BY 4.0)

版权声明:除另有说明外,《能量丝理论》(含文本、图表、插图、符号与公式)的著作权由作者(“屠广林”先生)享有。
许可方式:本作品采用 Creative Commons 署名 4.0 国际许可协议(CC BY 4.0)进行许可;在注明作者与来源的前提下,允许为商业或非商业目的进行复制、转载、节选、改编与再分发。
署名格式(建议):作者:“屠广林”;作品:《能量丝理论》;来源:energyfilament.org;许可证:CC BY 4.0。

首次发布: 2025-11-11|当前版本:v5.1
协议链接:https://creativecommons.org/licenses/by/4.0/