18-EFT.WP.Methods.CrossStats v1.0 | 第15章用例与参考实现 | 能量丝理论

第15章用例与参考实现

一句话目标：以三个端到端范式（离线评估、在线 A/B、跨域校准迁移）演示 P30x/S30x/M30/I30 的落地路径，形成可审计、可复现、可回退的统计实践闭环。

I. 范围与对象

范围
离线模型评估与发布闸门；在线实验（序贯/多重）决策闭环；跨域校准迁移与基线更新。
对象
- 输入：D_clean, manifest.*, ref, slo_policy, alpha_budget, bins, sync_ref。
- 输出：eval_report, ab_decision, calibration_map, drift_report, slo_attainment, manifest.stats.*。
- 约束：check_dim(expr) 通过；窗口在 tau_mono；涉及 T_arr 必并行两口径并记录 delta_form。

II. 名词与变量

数据与权重：(x_i, y_i), w_i = 1 / pi(i), W_norm = ( ∑ w_i ) / N。
区间与功效：alpha, beta, power = 1 - beta, MDE。
校准：f_cal(z), ECE, Brier。
漂移：W1, KL, psi, drift_level, drift_slope。
到达时：T_arr, c_ref, gamma(ell), d ell, delta_form。
时延：latency_ms_p50/p95/p99, staleness。

III. 公设 P315-*

P315-1（可复现链）：评估/实验/迁移的每一步都可由 repro_hash 与 manifest 复现。
P315-2（加权一致）：任何估计若含抽样/暴露偏差，须采用加权或倾向分数修正并声明 W_norm。
P315-3（时基对齐）：计算窗口在 tau_mono；对外以 ts 发布并附 offset/skew/J。
P315-4（两口径并行）：出现 T_arr 时记录两口径与 delta_form。
P315-5（契约优先）：全部产出以 C30-* 契约作为发布闸门。

IV. 最小方程 S315-*

S315-1（加权均值/方差）：hat{mu}_w = ( ∑ w_i y_i ) / ( ∑ w_i )；hat{sigma}_w^2 = ( ∑ w_i ( y_i - hat{mu}_w )^2 ) / ( ∑ w_i )。
S315-2（两样本样本量近似）：n_per_arm ≈ ( ( z_{1 - alpha/2} + z_{power} )^2 * 2 * sigma^2 ) / MDE^2。
S315-3（ECE）：ECE = ∑_{b=1..B} ( n_b / N ) * | acc_b - conf_b |。
S315-4（序贯停序）：tau = inf { t : S_t ≥ h_upper or S_t ≤ h_lower }（S_t 为累积对数似然比）。
S315-5（漂移度量）：W1(p,q), KL(p||q), psi = ∑ ( (q_i - p_i) * ln( q_i / p_i ) )（分箱）。
S315-6（到达时差）：delta_form = | ( 1 / c_ref ) * ( ∫ n_eff d ell ) - ( ∫ ( n_eff / c_ref ) d ell ) |。

V. 统计流程 M30-15（三个端到端用例）

用例 A：离线评估与发布闸门（Batch → Freeze）
- 就绪
  执行 standardize_names 与 repair_units（见《Methods.Cleaning》）；time_align_for_stats(ds, sync_ref)；compute_weights(ds, scheme)。
- 估计
  fit_glm(ds, formula, family) 或导入模型打分；bootstrap_metric(fn, ds, B) 产出 {est, CI}；calibration_report(pred, obs, bins)。
- 校核
  detect_drift(ref, cur, metrics)；evaluate_stat_contracts(metrics, rules)；必要时 backtest_coverage(ds, plan)。
- 落盘
  emit_stats_manifest(results, policy)；与《Methods.Cleaning》freeze_release(ds, tag) 协同出库。
用例 B：在线 A/B 与序贯决策（Stream → Decide → Rollback/Ship）
- 就绪
  design_experiment(pop, constraints, alpha, power)；注册 alpha_budget 与 slo_policy。
- 运行
  run_ab_test(stream, metric, alpha_spending) 产出实时 S_t 与中期决策；track_alpha_spending(seq_tests)。
- 守护
  drift_monitor(ref, cur, methods)；latency_summary(traces)；暴露偏差时 estimate_ate(ds, method=DR)。
- 结项
  compute_slo_attainment(metrics, slo)；audit_decision(trace, manifest)；若违约，执行回退计划与再实验。
用例 C：跨域校准迁移与基线更新（Domain A → Domain B）
- 就绪
  采集 A/B 双域样本；对齐量纲 repair_units 与时基 time_align_for_stats。
- 迁移
  calibration_transfer(src=A, dst=B, method ∈ {Platt, Isotonic, BBQ}) -> map；约束单调与过拟合。
- 验证
  在 B 上评估 ECE, Brier 前后差；detect_drift 确保 W1/KL/psi 在阈内。
- 发布
  emit_stats_manifest 写入 manifest.stats.calibration.*，包含 map.version, bins, ECE_before/after，并签名归档。

VI. 契约与断言（用例映射 C30-151x）

C30-1511（权重归一）：| W_norm - 1 | ≤ 0.01。
C30-1512（覆盖度）：coverage_rate ≥ SLO.coverage_min（离线 A）。
C30-1513（校准）：ECE_after ≤ ECE_before - delta_min 且 Brier ≤ SLO.Brier_max（跨域 C）。
C30-1514（序贯错误）：alpha_spent ≤ alpha_budget；FDR ≤ SLO.FDR_max（在线 B）。
C30-1515（功效达成）：当 n ≥ n_per_arm 且 MDE 达成才允许终止不足样本的试验（在线 B）。
C30-1516（漂移阈）：W1 ≤ W1_max ∧ KL ≤ KL_max ∧ psi ≤ psi_max 未满足则禁止推广（A/C）。
C30-1517（两口径差）：若存在 T_arr，断言 delta_form ≤ tol_Tarr（任一用例）。
C30-1518（时延）：latency_ms_p99 ≤ SLO.latency_p99_max（在线 B）。

VII. 实现绑定 I30-*（用例调用子集）

评估链：compute_weights → fit_glm → bootstrap_metric → calibration_report → evaluate_stat_contracts → emit_stats_manifest。
实验链：design_experiment → run_ab_test → track_alpha_spending → drift_monitor → latency_summary → audit_decision。
迁移链：calibration_transfer → calibration_report → detect_drift → emit_stats_manifest。

不变量：alpha_spent ≤ alpha_budget；sum(w_i)/N ≈ 1；metrics.window == Delta_t；signature 可验证。

VIII. 交叉引用

单位与量纲：见《Methods.Cleaning v1.0》第4章。
时间轴与同步：见《Methods.Cleaning v1.0》第5章。
多重比较：见本卷第6章。
漂移监测：见本卷第7章。
A/B 设计与停序：见本卷第8章。
校准迁移：见本卷第9章。
合规与发布：见《Methods.Cleaning v1.0》第10章与本卷第14章。
执行图与背压：见《EFT.WP.Core.Threads v1.0》。

IX. 质量与风控

用例 A（离线）
- SLI：coverage_rate, ECE, Brier, W1/KL/psi。
- 回退：改用更保守区间（自助法/贝叶斯分位），扩大 B，或回滚到 ref。
用例 B（在线）
- SLI：latency_ms_p99, alpha_spent, FDR, decision_sign_stability。
- 回退：灰度缩容、停序冻结、撤销变体并保持 alpha_budget 守恒。
用例 C（跨域）
- SLI：ECE_after - ECE_before, Brier_after, drift_level。
- 回退：禁用 map，回到域内校准或触发再采样。

小结

三个用例分别覆盖离线评估、在线决策与跨域迁移的关键路径，均以 P315-* 为不可协商前提，以 S315-* 为计算基线，以 M30-15 为流程骨架，以 C30-151x 为发布闸门，并通过 I30-* 接口将统计口径与清洗/时基/审计体系联结为一体化的、可追溯的生产实践。