目录文档-技术白皮书(V5.05)19-EFT.WP.Methods.SynthData v1.0

第2章 公设与最小方程(生成基线)


I. 范围与对象

  1. 目标
    • 建立从 p_model(x; theta) 逼近 p_data(x) 的统一生成基线,覆盖距离度量、时间/路径一致、量纲守恒与隐私预算的共同口径。
    • 定义发布闸门所需的必要方程与阈值映射,作为后续各章实现与评估的基础。
  2. 输入
    • 参考分布与样本:D_real ~ p_data(x);模式与约束:SRef, Rules;时间与路径锚定:tau_mono, ts, gamma(ell)。
    • 预算与策略:Privacy = {eps, delta, accounting};评估指标:Metrics = {W1, KL, JS, MMD, FID, KID, covg}。
  3. 输出
    生成基线报告 {divergence, coverage, uncertainty, privacy};阈值建议 {tol_*};契约映射 C40-2xx。

II. 名词与变量


III. 公设 P402-*(生成基线不可协商项)


IV. 最小方程 S402-*(生成基线必要式)

  1. S402-1(拟合目标)
    • theta* = argmin_theta D( p_model(·; theta ) || p_data(·) ),其中 D ∈ { KL, JS, W1, MMD }。
    • 约束化形式:min_theta ( D + λ * R(theta) ),其中 R 含规则/物理/几何/参照完整性罚项。
  2. S402-2(Wasserstein-1 距离)
    W1(P,Q) = inf_{pi ∈ Π(P,Q)} ( ∫ c(x,y) d pi(x,y) ),常用 c(x,y)=||x-y||_1 or ||x-y||_2。
  3. S402-3(MMD)
    MMD^2(P,Q;k) = || μ_P - μ_Q ||_H^2 = E_{x,x'} k(x,x') - 2 E_{x,y} k(x,y) + E_{y,y'} k(y,y'),需声明核 k 与带宽。
  4. S402-4(FID/KID)(影像或嵌入域)
    • FID = || mu_r - mu_s ||_2^2 + Tr( Sigma_r + Sigma_s - 2 * ( Sigma_r * Sigma_s )^{1/2} )。
    • KID 使用多次子采样的核偏差无关估计,需声明特征提取口径。
  5. S402-5(覆盖率与支撑集)
    离散近似:covg = | supp(D_syn) ∩ supp(D_real) | / | supp(D_real) |;连续域以网格或核近似求测度占比。
  6. S402-6(不确定度发布)
    • 扩展不确定度:U = k * u_c,k 由覆盖概率 1 - alpha 确定;若采用自助法,发布分位区间 {q_{alpha/2}, q_{1-alpha/2}}。
    • Delta 方法(简式):var( g( hat{theta} ) ) ≈ ( ∇g )^T * cov( hat{theta} ) * ( ∇g )。
  7. S402-7(隐私会计,简单组合)
    eps_total = ( ∑_{r=1}^R eps_r ),delta_total = ( ∑_{r=1}^R delta_r );若用高级会计,需附会计器与参数口径。
  8. S402-8(到达时两口径差)
    delta_form = | ( 1 / c_ref ) * ( ∫ n_eff d ell ) - ( ∫ ( n_eff / c_ref ) d ell ) |,并断言 delta_form ≤ tol_Tarr。
  9. S402-9(时间映射与抖动)
    ts = map_tau_to_ts( tau_mono; offset, skew );抖动上界 J 写入清单 manifest.synth.timing。
  10. S402-10(权重有效样本,若采用再加权)
    n_eff_weights = ( (∑ w_i)^2 ) / ( ∑ w_i^2 ),并要求 W_norm = ( ∑ w_i ) / N ≈ 1。

V. 合成流程 M40-2(生成基线校核)


VI. 契约与断言 C40-2xx(生成基线)


VII. 实现绑定 I40-*(本章锚点)


VIII. 交叉引用


IX. 质量度量与风控


小结


版权与许可:除另有说明外,《能量丝理论》(含文本、图表、插图、符号与公式)的著作权由作者(屠广林)享有。
许可方式(CC BY 4.0):在注明作者与来源的前提下,允许复制、转载、节选、改编与再分发。
署名格式(建议):作者:屠广林|作品:《能量丝理论》|来源:energyfilament.org|许可证:CC BY 4.0
验证召集: 作者独立自费、无雇主无资助;下一阶段将优先在最愿意公开讨论、公开复现、公开挑错的环境中推进落地,不限国家。欢迎各国媒体与同行抓住窗口组织验证,并与我们联系。
版本信息: 首次发布:2025-11-11 | 当前版本:v6.0+5.05