目录 / 文档-技术白皮书 / 18-EFT.WP.Methods.CrossStats v1.0
一句话目标:统一统计指标与漂移度量的定义、窗口化口径与阈值建议,并与契约库 C30-* 及 manifest.stats 字段一一映射,支撑稳定运行、合规与回退。
I. 范围与对象
- 覆盖离线评估、在线实验、监控面板与审计落盘的指标与漂移度量口径。
- 适用数据域含二/多分类、回归、排序、概率校准、时序窗口与分布漂移。
- 指标计算在 tau_mono 上评估,对外以 ts 发布,并记录 offset/skew/J 与 T_arr 两口径 delta_form。
II. 名词与变量
- 数据与权重:D = { (x_i, y_i, s_i, w_i) }, N, w_i > 0, W = ( ∑ w_i )。
- 概率与分布:p_ref(x), p_cur(x), F_ref(x), F_cur(x)。
- 预测与不确定度:hat{y}_i, p_i ∈ [0,1], pred_int_i = [l_i, u_i]。
- 时间与窗口:tau_mono, ts, Delta_t, r_win(连续窗口计数)。
- 量纲与单位:unit(x), dim(x), check_dim(expr)。
III. 公设 P30D-*
- P30D-1(窗口一致):所有指标以同一 Delta_t 与对齐规则计算,跨面板可比。
- P30D-2(带权口径):如存在抽样或分层,指标默认采用权重 w_i 的加权定义。
- P30D-3(量纲守恒):任何含物理量的指标发布前执行 check_dim(expr)。
- P30D-4(到达时一致):监控窗口携带 T_arr 两口径并断言 delta_form ≤ tol_Tarr。
- P30D-5(阈值保守合并):多指标护栏采用“最严格者优先”与 r_win 连续违反触发策略。
IV. 最小方程 S30D-*(基础与任务指标)
- S30D-1(加权均值):mean_w(x) = ( ∑ w_i x_i ) / ( ∑ w_i )。
- S30D-2(加权方差):var_w(x) = ( ∑ w_i ( x_i - mean_w(x) )^2 ) / ( ∑ w_i )。
- S30D-3(分类:PR/F1)
precision = TP / ( TP + FP ),recall = TP / ( TP + FN ),F1 = ( 2 * precision * recall ) / ( precision + recall )。 - S30D-4(AUC-ROC/PR,经验秩和定义):以阈值全扫集成或以秩统计近似,不省略权重。
- S30D-5(回归):MAE = ( 1 / W ) * ( ∑ w_i | y_i - hat{y}_i | ),RMSE = ( ( 1 / W ) * ( ∑ w_i ( y_i - hat{y}_i )^2 ) )^(1/2),R2 = 1 - ( ∑ w_i (y_i - hat{y}_i)^2 ) / ( ∑ w_i (y_i - mean_w(y))^2 )。
- S30D-6(排序 NDCG@k):DCG@k = ( ∑_{i=1..k} ( rel_i / log2(i+1) ) ),NDCG@k = DCG@k / IDCG@k。
- S30D-7(校准:ECE/Brier/NLL)
ECE = ( ∑_b w_b * | acc_b - conf_b | ) / ( ∑_b w_b ),Brier = ( 1 / W ) * ( ∑ w_i ( y_i - p_i )^2 ),NLL = - ( 1 / W ) * ( ∑ w_i [ y_i log p_i + (1 - y_i) log (1 - p_i) ] )。 - S30D-8(预测区间覆盖度):coverage = ( 1 / W ) * ( ∑ w_i I( l_i ≤ y_i ≤ u_i ) ),配合区间宽度 width = mean_w( u_i - l_i )。
V. 漂移度量族 S30D-Drift-*
- S30D-Drift-1(一维 W1):W1 = ( ∫ | F_ref(x) - F_cur(x) | dx );经验实现以分位点配对或直方同边界近似。
- S30D-Drift-2(KL):KL(P_ref || P_cur) = ( ∫ p_ref(x) log( p_ref(x) / p_cur(x) ) dx );加 epsilon 防零密度。
- S30D-Drift-3(JS):JS = ( 1 / 2 ) * KL(P_ref || M) + ( 1 / 2 ) * KL(P_cur || M),M = ( P_ref + P_cur ) / 2。
- S30D-Drift-4(PSI,分箱):PSI = ( ∑_b ( p_ref(b) - p_cur(b) ) * log( p_ref(b) / p_cur(b) ) ),分箱以固定分位或业务阈值。
- S30D-Drift-5(MMD^2):MMD^2 = ( 1 / n^2 ) ( ∑ k(x_i, x_j) ) + ( 1 / m^2 ) ( ∑ k(y_i, y_j) ) - ( 2 / (nm) ) ( ∑ k(x_i, y_j) )。
- S30D-Drift-6(Energy 距离):E^2 = 2 E||X - Y|| - E||X - X'|| - E||Y - Y'||。
- S30D-Drift-7(二样本检验):KS = sup_x | F_ref(x) - F_cur(x) |;AD 与 CvM 依照加权差异积分定义。
- S30D-Drift-8(变更点/序贯):CUSUM_t = max( 0, CUSUM_{t-1} + s_t - k );GLRT_t = ( ∏ p_1(x_t) ) / ( ∏ p_0(x_t) ),达界触发。
VI. 窗口化、基线与阈值
- 窗口定义:Window_k = [ tau_k, tau_k + Delta_t ),滑动步长 step ≤ Delta_t。
- 基线构造:baseline = Q_{ref}( metric ; q_low, q_high );可使用 EWMA_t = lambda * m_t + (1 - lambda) * EWMA_{t-1}。
- 阈值建议(示例口径,对应 C30-37*)
- W1 ≤ 0.08(warn),W1 ≤ 0.10(error)。
- psi ≤ 0.10(warn),psi ≤ 0.25(error)。
- ECE ≤ 0.03(warn),ECE ≤ 0.05(error)。
- 连续 r_win ∈ {2,3} 次越界升级处置。
- 组合护栏:fail = ( any(metric > hard_cap) ) ∨ ( consecutive_breach ≥ r_win )。
VII. 多维与类别特征漂移口径
- 数值向量:优先 MMD^2、Energy、基于嵌入后的 W1;必要时逐列 W1 并以 BH-FDR 控制家族错误。
- 类别变量:PSI、chi2;小频类合并阈值 min_count 明确。
- 混合特征:构建表示 z = f(x)(自编码或任务嵌入),再评估 W1/MMD,并记录 f 的版本与训练语料摘要。
VIII. 权重与抽样对齐
- 加权漂移度量:以 w_i 修正经验分布或使用密度比 r(x) = p_ref(x) / p_cur(x) 再评估距离。
- 设计效应校核:发布 DEFF = var_w / var_srs,并在阈值 DEFF ≤ deff_max 下接受。
- 归一校核:| ( ∑ w_i ) / N - 1 | ≤ tol_w。
IX. 契约与清单映射
- 指标→契约:
- W1/KL/psi → C30-370/371/373。
- ECE/Brier/NLL → C30-360/361/362(校准与对数损失)。
- 覆盖度与区间宽度 → C30-342/343。
- A/B 护栏(样本量、alpha 消耗、延迟)→ C30-381/383/382。
- 指标→清单:写入 manifest.stats.metrics.{drift,core,ab,causal};阈值与证据写入 contracts[*].evidence;窗口策略写入 actions[*]。
X. 实现绑定 I30-D-*(参考)
- compute_metrics(ds, spec, weights) -> metrics
- compute_drift(ref, cur, methods) -> {W1, KL, psi, MMD2, KS, AD}
- window_aggregate(stream, Delta_t, step, reducers) -> timeline
- update_baseline(timeline, policy) -> baseline_state
- evaluate_stat_contracts(metrics, rules) -> report
- emit_stats_manifest(results, policy) -> manifest.stats
不变量:sum(w_i)/N ≈ 1;delta_form ≤ tol_Tarr;窗口边界不重叠或有明确定义的重叠策略。
XI. 审计与可追溯
- 记录桶边界、核函数 k(·,·)、正则与 epsilon、分位点与 lambda(EWMA),连同随机种子与样本抽取策略。
- 以 repro_hash = hash_sha256(code ∥ params ∥ data_fingerprint) 落盘,并用 signature 签名。
小结
本附录将任务指标与漂移度量统一为加权、窗口化与到达时一致的可审计口径,配套阈值与序贯策略,直接映射至 C30-* 契约与 manifest.stats 字段,支撑跨系统一致发布与稳定运行。版权与许可(CC BY 4.0)
版权声明:除另有说明外,《能量丝理论》(含文本、图表、插图、符号与公式)的著作权由作者(“屠广林”先生)享有。
许可方式:本作品采用 Creative Commons 署名 4.0 国际许可协议(CC BY 4.0)进行许可;在注明作者与来源的前提下,允许为商业或非商业目的进行复制、转载、节选、改编与再分发。
署名格式(建议):作者:“屠广林”;作品:《能量丝理论》;来源:energyfilament.org;许可证:CC BY 4.0。
首次发布: 2025-11-11|当前版本:v5.1
协议链接:https://creativecommons.org/licenses/by/4.0/