目录 / 文档-技术白皮书 / 19-EFT.WP.Methods.SynthData v1.0
第12章 保真与效用评估(FID/KID/W1/MMD/Downstream)
I. 范围与对象
- 目标
- 以多指标组合评估合成数据 D_syn 相对参考真实数据 D_real 的统计保真(分布贴近度)与下游效用(任务表现),形成可审计、可复现、可回归的发布闸门。
- 指标族含 FID, KID, W1, MMD, precision/recall for generative models, 以及下游 Downstream 任务差值与功效。
- 输出 manifest.synth.metrics.* 与区间/不确定度 U = k * u_c。
- 适用对象
图像、语音、文本、表格、时序与多模态;离线评估与流式滚动评估。 - 输出
逐窗口与全量的指标、置信区间或后验分位、合格/不合格判定、回退建议与签名。
II. 名词与变量
- 数据与嵌入:D_real = {x_i}, D_syn = {x'_j}, phi(·)(冻结的特征抽取器),Z = phi(D)。
- 统计量:mu_r, Sigma_r, mu_s, Sigma_s, K(·,·)(核),pi(OT 耦合),C(代价矩阵)。
- 距离与度量:FID, KID, MMD, W1, PR_gen(生成精确率/召回率),covg(coverage)。
- 下游:metric_real, metric_syn, delta_down = metric_real - metric_syn,power。
- 时基与到达时:tau_mono, ts, Delta_t, T_arr, delta_form, offset/skew/J。
- 清单键:manifest.synth.metrics.{fid,kid,w1,mmd,pr,covg,delta_down,U,phi_spec,windows,signature}。
III. 公设 P412-*
- P412-1(特征口径冻结):phi 的架构、权重、预处理与张量维度必须固定并在清单中声明。
- P412-2(测度与域显式):所有积分/距离均声明测度、域与核参数;嵌入空间与像素/原始空间不得混写。
- P412-3(窗口一致):所有指标在 tau_mono 的同一 Delta_t 窗口评估,对外以 ts 发布。
- P412-4(不确定度必报):每个指标须给出区间或分位 U = k * u_c(自助法或后验)。
- P412-5(到达时两口径):涉及时间/路径成分的指标计算前后必须记录 T_arr 两口径与 delta_form。
- P412-6(量纲与单位):FID/KID/MMD/W1 视作无量纲或在定义域单位下保持自洽,执行 check_dim(expr)。
- P412-7(隐私不减):评估过程为后处理,不降低 DP(eps,delta) 保障。
IV. 最小方程 S412-*
- S412-1(FID)
- 设 Z_r ~ N( mu_r, Sigma_r ), Z_s ~ N( mu_s, Sigma_s ):
FID = || mu_r - mu_s ||_2^2 + Tr( Sigma_r + Sigma_s - 2 * ( Sigma_r^(1/2) * Sigma_s * Sigma_r^(1/2) )^(1/2) )。 - mu_r = (1/n) * ∑_i phi(x_i),Sigma_r = Cov( phi(x_i) );合成集同理。
- 设 Z_r ~ N( mu_r, Sigma_r ), Z_s ~ N( mu_s, Sigma_s ):
- S412-2(KID,polynomial kernel 的无偏 MMD^2)
令 K(u,v) = ( (u^T v) / d + 1 )^3,d = dim(phi):
KID = MMD_unbiased^2 = ( 1 / (n*(n-1)) ) * ∑_{i != j} K( z_i, z_j ) + ( 1 / (m*(m-1)) ) * ∑_{i != j} K( z'_i, z'_j ) - ( 2 / (n*m) ) * ∑_{i,j} K( z_i, z'_j )。 - S412-3(MMD,一般核)
MMD^2( P, Q ) = || E_P[ phi_k(x) ] - E_Q[ phi_k(y) ] ||_H^2;经验无偏估计同上式,核与带宽需在清单中显式。 - S412-4(Wasserstein-1 距离)
- W1( P, Q ) = inf_{pi ∈ Π(P,Q)} E_{(x,y)~pi}[ c(x,y) ],常用 c(x,y)=||x-y||_2。
- 经验 OT:π* = argmin_π ⟨π, C⟩ + λ * H(π),W1 = ⟨π*, C⟩。
- S412-5(生成精确率/召回率 PR_gen)
以嵌入空间球邻域图估计流形覆盖与样本质量:precision = P_{z'~Q}( z' ∈ M_P ),recall = P_{z~P}( z ∈ M_Q )。 - S412-6(下游效用差)
设下游指标 metric ∈ {AUC, mAP, F1, RMSE, BLEU, WER, ACC}:
delta_down = metric_real - metric_syn,配功效 power = 1 - beta 与最小可检效应 MDE。 - S412-7(不确定度与区间)
自助法:{FID}_b、{KID}_b 重采样 b=1..B,CI_q = quantile( {metric}_b, q );
亦可用 Delta 方法:SE( g( hat{theta} ) ) ≈ sqrt( g'( hat{theta} )^T Var( hat{theta} ) g'( hat{theta} ) )。 - S412-8(到达时一致)
T_arr = ( 1 / c_ref ) * ( ∫ n_eff d ell );T_arr = ( ∫ ( n_eff / c_ref ) d ell );
delta_form = | ( 1 / c_ref ) * ( ∫ n_eff d ell ) - ( ∫ ( n_eff / c_ref ) d ell ) |。
V. 合成流程 M40-12(保真与效用闭环)
- 就绪条件
冻结 phi 与预处理;锁定参考集合 D_real_ref 与窗口 Delta_t;声明核/带宽/OT 正则。 - 嵌入与采样
计算 Z_r, Z_s;若为流式,按 tau_mono 滚动窗口与分层抽样保持 W_norm 近 1。 - 指标计算
计算 FID/KID/MMD/W1/PR_gen/covg,同时生成 {metric}_b 自助分布与 U。 - 下游评测
固定训练/评测协议:train_on = {real|syn|mix}, eval_on = {real_holdout},输出 delta_down 与功效。 - 到达时与时基校核
对涉时/路径数据写入 offset/skew/J, T_arr, delta_form,并在窗口内断言上界。 - 合成契约判定
依据 C40-12xx 出具合格/不合格与回退建议;必要时触发再加权或映射(见第11章)。 - 落盘与签名
输出 manifest.synth.metrics.*、审计日志与签名;归档 phi_spec 与随机种子。
VI. 契约与断言 C40-12xx
- C40-1201(FID/KID 门槛):FID ≤ tol_fid 且 KID ≤ tol_kid(给出 CI_95)。
- C40-1202(核口径与 MMD):MMD^2 ≤ tol_mmd,核与带宽必须与清单一致。
- C40-1203(W1 与稳定性):W1 ≤ tol_w1,熵正则 λ 在允许区间。
- C40-1204(PR_gen 与覆盖):precision ≥ p_min 且 recall ≥ r_min 且 covg ≥ covg_min。
- C40-1205(下游效用):| delta_down | ≤ tol_down,或 power ≥ power_min 检出差异后按策略回退。
- C40-1206(到达时一致):delta_form ≤ tol_Tarr;|offset| ≤ off_max, J ≤ J_max。
- C40-1207(复现性):reproducible(seed)=true,跨运行指标差 ≤ tol_reprod。
- C40-1208(量纲校核):check_dim(expr)=true(尤其对表格/时序域)。
VII. 实现绑定 I40-12*(接口原型与不变量)
- compute_fid(Z_r, Z_s) -> {fid, CI}
- compute_kid(Z_r, Z_s, kernel_spec) -> {kid, CI}
- compute_mmd(Z_r, Z_s, kernel_spec) -> {mmd2, CI}
- compute_w1(Z_r, Z_s, cost, reg) -> {w1, reg_used}
- estimate_pr_gen(Z_r, Z_s, k) -> {precision, recall, covg}
- evaluate_downstream(protocol, datasets) -> {metric_real, metric_syn, delta_down, power}
- bootstrap_metrics(fn_list, Z_r, Z_s, B) -> U_bundle
- slice_and_window(ds, Delta_t, strata) -> {windows}
- timepath_hardening(ds, sync_ref) -> ds'(写入 offset/skew/J, T_arr, delta_form)
- emit_metrics_manifest(results, policy) -> manifest.synth.metrics
- 不变量:phi_spec 不变;sum(weights)/N ≈ 1;alpha/阈值与核参数与清单一致;delta_form ≤ tol_Tarr。
VIII. 交叉引用
- 见本卷第5章(深度生成稳定性)、第11章(再加权/映射配平)、第13章(发布流程)。
- 见《Methods.CrossStats v1.0》 第5章(重采样与区间)、第7章(漂移检测)、第14章(统计 SLO)。
- 见《Methods.Cleaning v1.0》 第10章(合规、契约与冻结)与附录B(契约库)。
- 见《Methods.Imaging v1.0》 第14章(成像质量指标),用于多模态对齐时的参考。
IX. 质量度量与风控
- SLI
fid, kid, mmd2, w1, precision, recall, covg, |delta_down|, latency_ms_p99, delta_form, telemetry.drop_rate。 - 风控策略
- FID/KID 超阈:审核 phi_spec、批归一、核/带宽;必要时回退到较早模型权重。
- W1 大且 PR_gen 低:优先结构对齐(OT/单调映射)或重训判别器约束。
- delta_down 偏大:切换 train_on={mix}、调整损失或代表性(见第11章)。
- 流式漂移:滑窗重估指标并联动告警与 freeze_release_synth 回退标签。
小结
- 本章以 P412-* 固定评估口径,以 S412-* 给出 FID/KID/W1/MMD/PR_gen/delta_down 的可计算定义与不确定度发布;
- 以 M40-12 构成就绪→嵌入→度量→下游→到达时→判定→落盘的闭环;
- 以 C40-12xx 作为发布闸门与SLO锚点;
- 以 I40-12* 定义工程接口与不变量,最终通过 manifest.synth.metrics.* 对外可审计发布。
版权与许可(CC BY 4.0)
版权声明:除另有说明外,《能量丝理论》(含文本、图表、插图、符号与公式)的著作权由作者(“屠广林”先生)享有。
许可方式:本作品采用 Creative Commons 署名 4.0 国际许可协议(CC BY 4.0)进行许可;在注明作者与来源的前提下,允许为商业或非商业目的进行复制、转载、节选、改编与再分发。
署名格式(建议):作者:“屠广林”;作品:《能量丝理论》;来源:energyfilament.org;许可证:CC BY 4.0。
首次发布: 2025-11-11|当前版本:v5.1
协议链接:https://creativecommons.org/licenses/by/4.0/