18-EFT.WP.Methods.CrossStats v1.0 | 附录D 指标与漂移度量（统计专属）

目录／文档-技术白皮书（V5.05）／ 18-EFT.WP.Methods.CrossStats v1.0

附录D 指标与漂移度量（统计专属）

一句话目标：统一统计指标与漂移度量的定义、窗口化口径与阈值建议，并与契约库 C30-* 及 manifest.stats 字段一一映射，支撑稳定运行、合规与回退。

I. 范围与对象

覆盖离线评估、在线实验、监控面板与审计落盘的指标与漂移度量口径。
适用数据域含二/多分类、回归、排序、概率校准、时序窗口与分布漂移。
指标计算在 tau_mono 上评估，对外以 ts 发布，并记录 offset/skew/J 与 T_arr 两口径 delta_form。

II. 名词与变量

数据与权重：D = { (x_i, y_i, s_i, w_i) }, N, w_i > 0, W = ( ∑ w_i )。
概率与分布：p_ref(x), p_cur(x), F_ref(x), F_cur(x)。
预测与不确定度：hat{y}_i, p_i ∈ [0,1], pred_int_i = [l_i, u_i]。
时间与窗口：tau_mono, ts, Delta_t, r_win（连续窗口计数）。
量纲与单位：unit(x), dim(x), check_dim(expr)。

III. 公设 P30D-*

P30D-1（窗口一致）：所有指标以同一 Delta_t 与对齐规则计算，跨面板可比。
P30D-2（带权口径）：如存在抽样或分层，指标默认采用权重 w_i 的加权定义。
P30D-3（量纲守恒）：任何含物理量的指标发布前执行 check_dim(expr)。
P30D-4（到达时一致）：监控窗口携带 T_arr 两口径并断言 delta_form ≤ tol_Tarr。
P30D-5（阈值保守合并）：多指标护栏采用“最严格者优先”与 r_win 连续违反触发策略。

IV. 最小方程 S30D-*（基础与任务指标）

S30D-1（加权均值）：mean_w(x) = ( ∑ w_i x_i ) / ( ∑ w_i )。
S30D-2（加权方差）：var_w(x) = ( ∑ w_i ( x_i - mean_w(x) )^2 ) / ( ∑ w_i )。
S30D-3（分类：PR/F1）
precision = TP / ( TP + FP )，recall = TP / ( TP + FN )，F1 = ( 2 * precision * recall ) / ( precision + recall )。
S30D-4（AUC-ROC/PR，经验秩和定义）：以阈值全扫集成或以秩统计近似，不省略权重。
S30D-5（回归）：MAE = ( 1 / W ) * ( ∑ w_i | y_i - hat{y}_i | )，RMSE = ( ( 1 / W ) * ( ∑ w_i ( y_i - hat{y}_i )^2 ) )^(1/2)，R2 = 1 - ( ∑ w_i (y_i - hat{y}_i)^2 ) / ( ∑ w_i (y_i - mean_w(y))^2 )。
S30D-6（排序 NDCG@k）：DCG@k = ( ∑_{i=1..k} ( rel_i / log2(i+1) ) )，NDCG@k = DCG@k / IDCG@k。
S30D-7（校准：ECE/Brier/NLL）
ECE = ( ∑_b w_b * | acc_b - conf_b | ) / ( ∑_b w_b )，Brier = ( 1 / W ) * ( ∑ w_i ( y_i - p_i )^2 )，NLL = - ( 1 / W ) * ( ∑ w_i [ y_i log p_i + (1 - y_i) log (1 - p_i) ] )。
S30D-8（预测区间覆盖度）：coverage = ( 1 / W ) * ( ∑ w_i I( l_i ≤ y_i ≤ u_i ) )，配合区间宽度 width = mean_w( u_i - l_i )。

V. 漂移度量族 S30D-Drift-*

S30D-Drift-1（一维 W1）：W1 = ( ∫ | F_ref(x) - F_cur(x) | dx )；经验实现以分位点配对或直方同边界近似。
S30D-Drift-2（KL）：KL(P_ref || P_cur) = ( ∫ p_ref(x) log( p_ref(x) / p_cur(x) ) dx )；加 epsilon 防零密度。
S30D-Drift-3（JS）：JS = ( 1 / 2 ) * KL(P_ref || M) + ( 1 / 2 ) * KL(P_cur || M)，M = ( P_ref + P_cur ) / 2。
S30D-Drift-4（PSI，分箱）：PSI = ( ∑_b ( p_ref(b) - p_cur(b) ) * log( p_ref(b) / p_cur(b) ) )，分箱以固定分位或业务阈值。
S30D-Drift-5（MMD^2）：MMD^2 = ( 1 / n^2 ) ( ∑ k(x_i, x_j) ) + ( 1 / m^2 ) ( ∑ k(y_i, y_j) ) - ( 2 / (nm) ) ( ∑ k(x_i, y_j) )。
S30D-Drift-6（Energy 距离）：E^2 = 2 E||X - Y|| - E||X - X'|| - E||Y - Y'||。
S30D-Drift-7（二样本检验）：KS = sup_x | F_ref(x) - F_cur(x) |；AD 与 CvM 依照加权差异积分定义。
S30D-Drift-8（变更点/序贯）：CUSUM_t = max( 0, CUSUM_{t-1} + s_t - k )；GLRT_t = ( ∏ p_1(x_t) ) / ( ∏ p_0(x_t) )，达界触发。

VI. 窗口化、基线与阈值

窗口定义：Window_k = [ tau_k, tau_k + Delta_t )，滑动步长 step ≤ Delta_t。
基线构造：baseline = Q_{ref}( metric ; q_low, q_high )；可使用 EWMA_t = lambda * m_t + (1 - lambda) * EWMA_{t-1}。
阈值建议（示例口径，对应 C30-37*）
- W1 ≤ 0.08（warn），W1 ≤ 0.10（error）。
- psi ≤ 0.10（warn），psi ≤ 0.25（error）。
- ECE ≤ 0.03（warn），ECE ≤ 0.05（error）。
- 连续 r_win ∈ {2,3} 次越界升级处置。
组合护栏：fail = ( any(metric > hard_cap) ) ∨ ( consecutive_breach ≥ r_win )。

VII. 多维与类别特征漂移口径

数值向量：优先 MMD^2、Energy、基于嵌入后的 W1；必要时逐列 W1 并以 BH-FDR 控制家族错误。
类别变量：PSI、chi2；小频类合并阈值 min_count 明确。
混合特征：构建表示 z = f(x)（自编码或任务嵌入），再评估 W1/MMD，并记录 f 的版本与训练语料摘要。

VIII. 权重与抽样对齐

加权漂移度量：以 w_i 修正经验分布或使用密度比 r(x) = p_ref(x) / p_cur(x) 再评估距离。
设计效应校核：发布 DEFF = var_w / var_srs，并在阈值 DEFF ≤ deff_max 下接受。
归一校核：| ( ∑ w_i ) / N - 1 | ≤ tol_w。

IX. 契约与清单映射

指标→契约：
- W1/KL/psi → C30-370/371/373。
- ECE/Brier/NLL → C30-360/361/362（校准与对数损失）。
- 覆盖度与区间宽度 → C30-342/343。
- A/B 护栏（样本量、alpha 消耗、延迟）→ C30-381/383/382。
指标→清单：写入 manifest.stats.metrics.{drift,core,ab,causal}；阈值与证据写入 contracts[*].evidence；窗口策略写入 actions[*]。

X. 实现绑定 I30-D-*（参考）

compute_metrics(ds, spec, weights) -> metrics
compute_drift(ref, cur, methods) -> {W1, KL, psi, MMD2, KS, AD}
window_aggregate(stream, Delta_t, step, reducers) -> timeline
update_baseline(timeline, policy) -> baseline_state
evaluate_stat_contracts(metrics, rules) -> report
emit_stats_manifest(results, policy) -> manifest.stats
不变量：sum(w_i)/N ≈ 1；delta_form ≤ tol_Tarr；窗口边界不重叠或有明确定义的重叠策略。

XI. 审计与可追溯

记录桶边界、核函数 k(·,·)、正则与 epsilon、分位点与 lambda（EWMA），连同随机种子与样本抽取策略。
以 repro_hash = hash_sha256(code ∥ params ∥ data_fingerprint) 落盘，并用 signature 签名。

小结

本附录将任务指标与漂移度量统一为加权、窗口化与到达时一致的可审计口径，配套阈值与序贯策略，直接映射至 C30-* 契约与 manifest.stats 字段，支撑跨系统一致发布与稳定运行。

版权与许可：除另有说明外，《能量丝理论》（含文本、图表、插图、符号与公式）的著作权由作者（屠广林）享有。
许可方式（CC BY 4.0）：在注明作者与来源的前提下，允许复制、转载、节选、改编与再分发。
署名格式（建议）：作者：屠广林｜作品：《能量丝理论》｜来源：energyfilament.org｜许可证：CC BY 4.0
验证召集： 作者独立自费、无雇主无资助；下一阶段将优先在最愿意公开讨论、公开复现、公开挑错的环境中推进落地，不限国家。欢迎各国媒体与同行抓住窗口组织验证，并与我们联系。
版本信息： 首次发布：2025-11-11 ｜当前版本：v6.0+5.05