目录 / 文档-技术白皮书 / 19-EFT.WP.Methods.SynthData v1.0
I. 适用范围与目标
- 定义并统一合成数据的保真、效用、校准、覆盖与漂移度量口径,给出不确定度与阈值设定方法,兼容离线发布与流式增量场景。
- 产出:metrics.* 字段的计算与发布规范、contracts.* 断言映射、窗口化与告警策略、与 manifest.synth 的键级对齐。
II. 名词与变量
- 数据与分布:D_real ~ p_data(x), D_syn ~ p_model(x; theta),样本量 n_real, n_syn。
- 特征与嵌入:phi(x)(手工或学习特征),Z_backbone(如 InceptionV3 层),嵌入均值/协方差 mu_r, mu_s, Sigma_r, Sigma_s。
- 距离与核:W1, KL, JS, MMD, k(u,v; params);影像指标 FID, KID。
- 覆盖与效用:covg, utility_gap_metric, ECE, Brier。
- 漂移与窗口:psi(population stability index), drift_level, Delta_t(窗口), tau_mono, ts。
- 权重与样本:w_i, n_eff = ( ( ∑ w_i )^2 ) / ( ∑ w_i^2 )。
- 不确定度:u(x), 区间 CI = [lo, hi], 发布常用 U = k * u_c。
III. 公设 P40D-*
- P40D-1(测度显式):任何指标依赖的域与测度须显式,嵌入/特征空间的定义、归一与维度固定。
- P40D-2(窗口与时基):所有窗口化度量在 tau_mono 上评估,对外以 ts 发布,并记录 offset/skew/J。
- P40D-3(不确定度发布):每个指标必须伴随 u(metric) 或 CI,并声明来源 bootstrap|posterior|analytic。
- P40D-4(嵌入可追溯):FID/KID 等嵌入型指标须声明 Z_backbone、层、预处理与版本。
- P40D-5(数据闭集):训练、评估与参考集拆分清晰,禁止混用;统计独立性假设须声明或用重抽样替代。
- P40D-6(到达时一致):涉及路径/到达时的指标,必须记录两口径:T_arr = ( 1 / c_ref ) * ( ∫ n_eff d ell ) 与 T_arr = ( ∫ ( n_eff / c_ref ) d ell ),并发布 delta_form。
- P40D-7(量纲守恒):unit(x) 与 dim(x) 对进入方程的字段显式,发布前执行 check_dim( y - f(x) )。
IV. 最小方程 S40D-*
- S40D-1(W1,经验近似,1D):W1 = ( 1 / n ) * ( ∑ | sort(x_real)_i - sort(x_syn)_i | )。
- S40D-2(W1,泛化定义):W1 = ( min_{pi ∈ Π(p,q)} ( ∑ || x_i - y_j || * pi_ij ) ),计算时可用 Sinkhorn 近似并记录正则参数。
- S40D-3(MMD^2):MMD^2 = ( 1 / n^2 ) * ( ∑ k(x_i, x_j) ) + ( 1 / m^2 ) * ( ∑ k(y_i, y_j) ) - ( 2 / ( n m ) ) * ( ∑ k(x_i, y_j) ),声明 k 与带宽。
- S40D-4(KL,分箱):KL = ( ∑_b p_b * log( p_b / q_b ) ),p_b, q_b 经加性平滑 eps_smooth。
- S40D-5(PSI):psi = ( ∑_b ( q_b - p_b ) * log( q_b / p_b ) ),用于监测分布移位。
- S40D-6(FID):FID = || mu_r - mu_s ||^2 + Tr( Sigma_r + Sigma_s - 2 * ( Sigma_r^{1/2} * Sigma_s * Sigma_r^{1/2} )^{1/2} )。
- S40D-7(KID):KID = MMD^2_{poly}(多项式核),需发布核阶数与系数。
- S40D-8(coverage):covg = ( | { x ∈ ref : kNN_dist(x, syn) ≤ tau_cov } | ) / ( | ref | ),声明 k, tau_cov。
- S40D-9(utility gap):utility_gap_metric = metric( train=real, eval=real ) - metric( train=syn, eval=real )。
- S40D-10(校准误差):ECE = ( ∑_b ( n_b / n ) * | acc_b - conf_b | )。
- S40D-11(重加权有效样本):n_eff = ( ( ∑ w_i )^2 ) / ( ∑ w_i^2 )。
- S40D-12(不确定度-自助法):u(metric) = std( { metric^(b) }_{b=1..B} ),CI = quantile( { metric^(b) }, [alpha/2, 1-alpha/2] )。
V. 指标清单与发布口径
- Tabular
- 下游效用:utility_gap_auc, utility_gap_rmse;校准:ECE, Brier。
- W1(数值特征,按列与加权合成)、MMD_RBF(所有数值特征经标准化)、psi(关键分箱特征)。
- Image
FID, KID, covg(kNN 覆盖),可选 LPIPS;嵌入空间与预处理口径固定。 - Text
MMD(句向量),W1(嵌入投影),type-token 覆盖,utility_gap(下游分类/检索)。 - Audio
频谱域 MMD_RBF,感知嵌入 W1,任务效用(关键词检测/ASR WER 差)。 - Graph
度分布 KL/psi,子图频率 MMD,同配性差 |r_syn - r_real|。 - Time/Events
到达强度差 || lambda_syn - lambda_real ||_1,自相关差 | ACF_k |,W1(事件间隔),并发布 T_arr 两口径与 delta_form。 - 发布映射
每项指标写入 metrics.*:name, value, u, unit, window, details(核、带宽、backbone、层、标准化口径)。
VI. 漂移检测与告警(窗口化)
- 流程
- 选取参考窗口 ref = [t0, t1) 与当前窗口 cur = [t, t+Delta_t)(tau_mono)。
- 计算度量向量 m_ref, m_cur,得到差异 d = m_cur - m_ref 或距离 dist(ref, cur)。
- 以 psi/W1/MMD 为主度量,辅以任务 utility_gap,形成多指标判据 score = agg( z_scores )。
- 应用阈值或序贯检验(GLR/EWMA/CUSUM),生成 alert ∈ {none, warn, block}。
- 聚合规则
agg = median_of_means(z_i; groups) 或 L_infty(保守);在 details 声明。 - 契约示例
C40D-psi: psi ≤ 0.1;C40D-W1: W1 ≤ 0.06;C40D-utility: utility_gap_auc ≥ -0.01。 - 回退策略
warn:降权合成流或触发再校准;block:冻结发布,回滚至上个通过的 bundle。
VII. 窗口与时基对齐
- 计算窗口
固定跨度 Delta_t 与滑动步长 step;N_cur ≥ N_min 或 n_eff ≥ n_eff_min 才发布。 - 对齐约束
记录 offset/skew/J;涉及路径的窗口发布 T_arr_form1, T_arr_form2, delta_form。 - 去重与泄漏
unique(rid),deduplicate(keys);窗口隔离训练/评估样本,避免信息泄漏。
VIII. 阈值与功效设定
- 最小可检效应
给定 alpha, power,通过自助法近似检测阈 tau:power_hat = P( metric > tau | drift ),解 tau 使 power_hat ≥ target。 - 多指标预算
使用 alpha_spending 或 BH 控制 FDR,声明家族与分配策略。 - 建议默认
Tabular:W1 ≤ 0.05,psi ≤ 0.1;Image:FID ≤ 15, KID ≤ 0.02;Text:MMD_RBF ≤ 0.02;Time:|ΔACF_k| ≤ 0.1(k ≤ 10)。 - 不确定度门控
将阈值作用于上界:assert( metric + k * u(metric) ≤ tol )(保守发布)。
IX. 实现绑定 I40-*(与度量相关)
- measure_fidelity(real, syn, metrics, cfg) -> report(声明 phi, k, Z_backbone, 归一化口径)。
- detect_drift(ref, cur, metrics, agg, sequential) -> drift_report(返回 score, alert)。
- window_and_align(ds, Delta_t, step, sync_ref) -> windows(写入 offset/skew/J 与两口径 T_arr)。
- set_thresholds_by_bootstrap(ref, metrics, alpha, power) -> tau_map。
- emit_metrics_to_manifest(report) -> manifest.synth.metrics.*。
不变量:n_eff ≥ n_eff_min;度量空间/核/嵌入版本固定;delta_form ≤ tol_Tarr;check_dim(expr)=pass。
X. 交叉引用
- 清洗与契约:见《Methods.Cleaning v1.0》第8/10章与附录B、C。
- 成像度量:见《Methods.Imaging v1.0》第14章与附录D/E(嵌入与几何一致)。
- 统计功效与多重比较:见《Methods.CrossStats v1.0》第6/14章与附录D/E。
XI. 小结
本附录给出 W1/MMD/KL/PSI/FID/KID/covg/utility_gap/ECE 的统一口径、窗口化与告警流程、不确定度与阈值设定,并提供实现绑定与发布映射。落盘时将全部度量与其 u(·)、窗口与计算细节写入 manifest.synth.metrics.*,契约结果写入 contracts.*,确保跨版本和跨模态可追溯与可审计。版权与许可(CC BY 4.0)
版权声明:除另有说明外,《能量丝理论》(含文本、图表、插图、符号与公式)的著作权由作者(“屠广林”先生)享有。
许可方式:本作品采用 Creative Commons 署名 4.0 国际许可协议(CC BY 4.0)进行许可;在注明作者与来源的前提下,允许为商业或非商业目的进行复制、转载、节选、改编与再分发。
署名格式(建议):作者:“屠广林”;作品:《能量丝理论》;来源:energyfilament.org;许可证:CC BY 4.0。
首次发布: 2025-11-11|当前版本:v5.1
协议链接:https://creativecommons.org/licenses/by/4.0/