目录文档-技术白皮书19-EFT.WP.Methods.SynthData v1.0

第12章 保真与效用评估(FID/KID/W1/MMD/Downstream)


I. 范围与对象

  1. 目标
    • 以多指标组合评估合成数据 D_syn 相对参考真实数据 D_real 的统计保真(分布贴近度)与下游效用(任务表现),形成可审计、可复现、可回归的发布闸门。
    • 指标族含 FID, KID, W1, MMD, precision/recall for generative models, 以及下游 Downstream 任务差值与功效。
    • 输出 manifest.synth.metrics.* 与区间/不确定度 U = k * u_c。
  2. 适用对象
    图像、语音、文本、表格、时序与多模态;离线评估与流式滚动评估。
  3. 输出
    逐窗口与全量的指标、置信区间或后验分位、合格/不合格判定、回退建议与签名。

II. 名词与变量


III. 公设 P412-*


IV. 最小方程 S412-*

  1. S412-1(FID)
    • 设 Z_r ~ N( mu_r, Sigma_r ), Z_s ~ N( mu_s, Sigma_s ):
      FID = || mu_r - mu_s ||_2^2 + Tr( Sigma_r + Sigma_s - 2 * ( Sigma_r^(1/2) * Sigma_s * Sigma_r^(1/2) )^(1/2) )。
    • mu_r = (1/n) * ∑_i phi(x_i),Sigma_r = Cov( phi(x_i) );合成集同理。
  2. S412-2(KID,polynomial kernel 的无偏 MMD^2)
    令 K(u,v) = ( (u^T v) / d + 1 )^3,d = dim(phi):
    KID = MMD_unbiased^2 = ( 1 / (n*(n-1)) ) * ∑_{i != j} K( z_i, z_j ) + ( 1 / (m*(m-1)) ) * ∑_{i != j} K( z'_i, z'_j ) - ( 2 / (n*m) ) * ∑_{i,j} K( z_i, z'_j )。
  3. S412-3(MMD,一般核)
    MMD^2( P, Q ) = || E_P[ phi_k(x) ] - E_Q[ phi_k(y) ] ||_H^2;经验无偏估计同上式,核与带宽需在清单中显式。
  4. S412-4(Wasserstein-1 距离)
    • W1( P, Q ) = inf_{pi ∈ Π(P,Q)} E_{(x,y)~pi}[ c(x,y) ],常用 c(x,y)=||x-y||_2。
    • 经验 OT:π* = argmin_π ⟨π, C⟩ + λ * H(π),W1 = ⟨π*, C⟩。
  5. S412-5(生成精确率/召回率 PR_gen)
    以嵌入空间球邻域图估计流形覆盖与样本质量:precision = P_{z'~Q}( z' ∈ M_P ),recall = P_{z~P}( z ∈ M_Q )。
  6. S412-6(下游效用差)
    设下游指标 metric ∈ {AUC, mAP, F1, RMSE, BLEU, WER, ACC}:
    delta_down = metric_real - metric_syn,配功效 power = 1 - beta 与最小可检效应 MDE。
  7. S412-7(不确定度与区间)
    自助法:{FID}_b、{KID}_b 重采样 b=1..B,CI_q = quantile( {metric}_b, q );
    亦可用 Delta 方法:SE( g( hat{theta} ) ) ≈ sqrt( g'( hat{theta} )^T Var( hat{theta} ) g'( hat{theta} ) )。
  8. S412-8(到达时一致)
    T_arr = ( 1 / c_ref ) * ( ∫ n_eff d ell );T_arr = ( ∫ ( n_eff / c_ref ) d ell );
    delta_form = | ( 1 / c_ref ) * ( ∫ n_eff d ell ) - ( ∫ ( n_eff / c_ref ) d ell ) |。

V. 合成流程 M40-12(保真与效用闭环)


VI. 契约与断言 C40-12xx


VII. 实现绑定 I40-12*(接口原型与不变量)


VIII. 交叉引用


IX. 质量度量与风控

  1. SLI
    fid, kid, mmd2, w1, precision, recall, covg, |delta_down|, latency_ms_p99, delta_form, telemetry.drop_rate。
  2. 风控策略
    • FID/KID 超阈:审核 phi_spec、批归一、核/带宽;必要时回退到较早模型权重。
    • W1 大且 PR_gen 低:优先结构对齐(OT/单调映射)或重训判别器约束。
    • delta_down 偏大:切换 train_on={mix}、调整损失或代表性(见第11章)。
    • 流式漂移:滑窗重估指标并联动告警与 freeze_release_synth 回退标签。

小结


版权与许可(CC BY 4.0)

版权声明:除另有说明外,《能量丝理论》(含文本、图表、插图、符号与公式)的著作权由作者(“屠广林”先生)享有。
许可方式:本作品采用 Creative Commons 署名 4.0 国际许可协议(CC BY 4.0)进行许可;在注明作者与来源的前提下,允许为商业或非商业目的进行复制、转载、节选、改编与再分发。
署名格式(建议):作者:“屠广林”;作品:《能量丝理论》;来源:energyfilament.org;许可证:CC BY 4.0。

首次发布: 2025-11-11|当前版本:v5.1
协议链接:https://creativecommons.org/licenses/by/4.0/