目录文档-技术白皮书19-EFT.WP.Methods.SynthData v1.0

第2章 公设与最小方程(生成基线)


I. 范围与对象

  1. 目标
    • 建立从 p_model(x; theta) 逼近 p_data(x) 的统一生成基线,覆盖距离度量、时间/路径一致、量纲守恒与隐私预算的共同口径。
    • 定义发布闸门所需的必要方程与阈值映射,作为后续各章实现与评估的基础。
  2. 输入
    • 参考分布与样本:D_real ~ p_data(x);模式与约束:SRef, Rules;时间与路径锚定:tau_mono, ts, gamma(ell)。
    • 预算与策略:Privacy = {eps, delta, accounting};评估指标:Metrics = {W1, KL, JS, MMD, FID, KID, covg}。
  3. 输出
    生成基线报告 {divergence, coverage, uncertainty, privacy};阈值建议 {tol_*};契约映射 C40-2xx。

II. 名词与变量


III. 公设 P402-*(生成基线不可协商项)


IV. 最小方程 S402-*(生成基线必要式)

  1. S402-1(拟合目标)
    • theta* = argmin_theta D( p_model(·; theta ) || p_data(·) ),其中 D ∈ { KL, JS, W1, MMD }。
    • 约束化形式:min_theta ( D + λ * R(theta) ),其中 R 含规则/物理/几何/参照完整性罚项。
  2. S402-2(Wasserstein-1 距离)
    W1(P,Q) = inf_{pi ∈ Π(P,Q)} ( ∫ c(x,y) d pi(x,y) ),常用 c(x,y)=||x-y||_1 or ||x-y||_2。
  3. S402-3(MMD)
    MMD^2(P,Q;k) = || μ_P - μ_Q ||_H^2 = E_{x,x'} k(x,x') - 2 E_{x,y} k(x,y) + E_{y,y'} k(y,y'),需声明核 k 与带宽。
  4. S402-4(FID/KID)(影像或嵌入域)
    • FID = || mu_r - mu_s ||_2^2 + Tr( Sigma_r + Sigma_s - 2 * ( Sigma_r * Sigma_s )^{1/2} )。
    • KID 使用多次子采样的核偏差无关估计,需声明特征提取口径。
  5. S402-5(覆盖率与支撑集)
    离散近似:covg = | supp(D_syn) ∩ supp(D_real) | / | supp(D_real) |;连续域以网格或核近似求测度占比。
  6. S402-6(不确定度发布)
    • 扩展不确定度:U = k * u_c,k 由覆盖概率 1 - alpha 确定;若采用自助法,发布分位区间 {q_{alpha/2}, q_{1-alpha/2}}。
    • Delta 方法(简式):var( g( hat{theta} ) ) ≈ ( ∇g )^T * cov( hat{theta} ) * ( ∇g )。
  7. S402-7(隐私会计,简单组合)
    eps_total = ( ∑_{r=1}^R eps_r ),delta_total = ( ∑_{r=1}^R delta_r );若用高级会计,需附会计器与参数口径。
  8. S402-8(到达时两口径差)
    delta_form = | ( 1 / c_ref ) * ( ∫ n_eff d ell ) - ( ∫ ( n_eff / c_ref ) d ell ) |,并断言 delta_form ≤ tol_Tarr。
  9. S402-9(时间映射与抖动)
    ts = map_tau_to_ts( tau_mono; offset, skew );抖动上界 J 写入清单 manifest.synth.timing。
  10. S402-10(权重有效样本,若采用再加权)
    n_eff_weights = ( (∑ w_i)^2 ) / ( ∑ w_i^2 ),并要求 W_norm = ( ∑ w_i ) / N ≈ 1。

V. 合成流程 M40-2(生成基线校核)


VI. 契约与断言 C40-2xx(生成基线)


VII. 实现绑定 I40-*(本章锚点)


VIII. 交叉引用


IX. 质量度量与风控


小结


版权与许可(CC BY 4.0)

版权声明:除另有说明外,《能量丝理论》(含文本、图表、插图、符号与公式)的著作权由作者(“屠广林”先生)享有。
许可方式:本作品采用 Creative Commons 署名 4.0 国际许可协议(CC BY 4.0)进行许可;在注明作者与来源的前提下,允许为商业或非商业目的进行复制、转载、节选、改编与再分发。
署名格式(建议):作者:“屠广林”;作品:《能量丝理论》;来源:energyfilament.org;许可证:CC BY 4.0。

首次发布: 2025-11-11|当前版本:v5.1
协议链接:https://creativecommons.org/licenses/by/4.0/