目录文档-技术白皮书(V5.05)19-EFT.WP.Methods.SynthData v1.0

第12章 保真与效用评估(FID/KID/W1/MMD/Downstream)


I. 范围与对象

  1. 目标
    • 以多指标组合评估合成数据 D_syn 相对参考真实数据 D_real 的统计保真(分布贴近度)与下游效用(任务表现),形成可审计、可复现、可回归的发布闸门。
    • 指标族含 FID, KID, W1, MMD, precision/recall for generative models, 以及下游 Downstream 任务差值与功效。
    • 输出 manifest.synth.metrics.* 与区间/不确定度 U = k * u_c。
  2. 适用对象
    图像、语音、文本、表格、时序与多模态;离线评估与流式滚动评估。
  3. 输出
    逐窗口与全量的指标、置信区间或后验分位、合格/不合格判定、回退建议与签名。

II. 名词与变量


III. 公设 P412-*


IV. 最小方程 S412-*

  1. S412-1(FID)
    • 设 Z_r ~ N( mu_r, Sigma_r ), Z_s ~ N( mu_s, Sigma_s ):
      FID = || mu_r - mu_s ||_2^2 + Tr( Sigma_r + Sigma_s - 2 * ( Sigma_r^(1/2) * Sigma_s * Sigma_r^(1/2) )^(1/2) )。
    • mu_r = (1/n) * ∑_i phi(x_i),Sigma_r = Cov( phi(x_i) );合成集同理。
  2. S412-2(KID,polynomial kernel 的无偏 MMD^2)
    令 K(u,v) = ( (u^T v) / d + 1 )^3,d = dim(phi):
    KID = MMD_unbiased^2 = ( 1 / (n*(n-1)) ) * ∑_{i != j} K( z_i, z_j ) + ( 1 / (m*(m-1)) ) * ∑_{i != j} K( z'_i, z'_j ) - ( 2 / (n*m) ) * ∑_{i,j} K( z_i, z'_j )。
  3. S412-3(MMD,一般核)
    MMD^2( P, Q ) = || E_P[ phi_k(x) ] - E_Q[ phi_k(y) ] ||_H^2;经验无偏估计同上式,核与带宽需在清单中显式。
  4. S412-4(Wasserstein-1 距离)
    • W1( P, Q ) = inf_{pi ∈ Π(P,Q)} E_{(x,y)~pi}[ c(x,y) ],常用 c(x,y)=||x-y||_2。
    • 经验 OT:π* = argmin_π ⟨π, C⟩ + λ * H(π),W1 = ⟨π*, C⟩。
  5. S412-5(生成精确率/召回率 PR_gen)
    以嵌入空间球邻域图估计流形覆盖与样本质量:precision = P_{z'~Q}( z' ∈ M_P ),recall = P_{z~P}( z ∈ M_Q )。
  6. S412-6(下游效用差)
    设下游指标 metric ∈ {AUC, mAP, F1, RMSE, BLEU, WER, ACC}:
    delta_down = metric_real - metric_syn,配功效 power = 1 - beta 与最小可检效应 MDE。
  7. S412-7(不确定度与区间)
    自助法:{FID}_b、{KID}_b 重采样 b=1..B,CI_q = quantile( {metric}_b, q );
    亦可用 Delta 方法:SE( g( hat{theta} ) ) ≈ sqrt( g'( hat{theta} )^T Var( hat{theta} ) g'( hat{theta} ) )。
  8. S412-8(到达时一致)
    T_arr = ( 1 / c_ref ) * ( ∫ n_eff d ell );T_arr = ( ∫ ( n_eff / c_ref ) d ell );
    delta_form = | ( 1 / c_ref ) * ( ∫ n_eff d ell ) - ( ∫ ( n_eff / c_ref ) d ell ) |。

V. 合成流程 M40-12(保真与效用闭环)


VI. 契约与断言 C40-12xx


VII. 实现绑定 I40-12*(接口原型与不变量)


VIII. 交叉引用


IX. 质量度量与风控

  1. SLI
    fid, kid, mmd2, w1, precision, recall, covg, |delta_down|, latency_ms_p99, delta_form, telemetry.drop_rate。
  2. 风控策略
    • FID/KID 超阈:审核 phi_spec、批归一、核/带宽;必要时回退到较早模型权重。
    • W1 大且 PR_gen 低:优先结构对齐(OT/单调映射)或重训判别器约束。
    • delta_down 偏大:切换 train_on={mix}、调整损失或代表性(见第11章)。
    • 流式漂移:滑窗重估指标并联动告警与 freeze_release_synth 回退标签。

小结


版权与许可:除另有说明外,《能量丝理论》(含文本、图表、插图、符号与公式)的著作权由作者(屠广林)享有。
许可方式(CC BY 4.0):在注明作者与来源的前提下,允许复制、转载、节选、改编与再分发。
署名格式(建议):作者:屠广林|作品:《能量丝理论》|来源:energyfilament.org|许可证:CC BY 4.0
验证召集: 作者独立自费、无雇主无资助;下一阶段将优先在最愿意公开讨论、公开复现、公开挑错的环境中推进落地,不限国家。欢迎各国媒体与同行抓住窗口组织验证,并与我们联系。
版本信息: 首次发布:2025-11-11 | 当前版本:v6.0+5.05