目录 / 文档-技术白皮书 / 18-EFT.WP.Methods.CrossStats v1.0
一句话目标:以三个端到端范式(离线评估、在线 A/B、跨域校准迁移)演示 P30x/S30x/M30/I30 的落地路径,形成可审计、可复现、可回退的统计实践闭环。
I. 范围与对象
- 范围
离线模型评估与发布闸门;在线实验(序贯/多重)决策闭环;跨域校准迁移与基线更新。 - 对象
- 输入:D_clean, manifest.*, ref, slo_policy, alpha_budget, bins, sync_ref。
- 输出:eval_report, ab_decision, calibration_map, drift_report, slo_attainment, manifest.stats.*。
- 约束:check_dim(expr) 通过;窗口在 tau_mono;涉及 T_arr 必并行两口径并记录 delta_form。
II. 名词与变量
- 数据与权重:(x_i, y_i), w_i = 1 / pi(i), W_norm = ( ∑ w_i ) / N。
- 区间与功效:alpha, beta, power = 1 - beta, MDE。
- 校准:f_cal(z), ECE, Brier。
- 漂移:W1, KL, psi, drift_level, drift_slope。
- 到达时:T_arr, c_ref, gamma(ell), d ell, delta_form。
- 时延:latency_ms_p50/p95/p99, staleness。
III. 公设 P315-*
- P315-1(可复现链):评估/实验/迁移的每一步都可由 repro_hash 与 manifest 复现。
- P315-2(加权一致):任何估计若含抽样/暴露偏差,须采用加权或倾向分数修正并声明 W_norm。
- P315-3(时基对齐):计算窗口在 tau_mono;对外以 ts 发布并附 offset/skew/J。
- P315-4(两口径并行):出现 T_arr 时记录两口径与 delta_form。
- P315-5(契约优先):全部产出以 C30-* 契约作为发布闸门。
IV. 最小方程 S315-*
- S315-1(加权均值/方差):hat{mu}_w = ( ∑ w_i y_i ) / ( ∑ w_i );hat{sigma}_w^2 = ( ∑ w_i ( y_i - hat{mu}_w )^2 ) / ( ∑ w_i )。
- S315-2(两样本样本量近似):n_per_arm ≈ ( ( z_{1 - alpha/2} + z_{power} )^2 * 2 * sigma^2 ) / MDE^2。
- S315-3(ECE):ECE = ∑_{b=1..B} ( n_b / N ) * | acc_b - conf_b |。
- S315-4(序贯停序):tau = inf { t : S_t ≥ h_upper or S_t ≤ h_lower }(S_t 为累积对数似然比)。
- S315-5(漂移度量):W1(p,q), KL(p||q), psi = ∑ ( (q_i - p_i) * ln( q_i / p_i ) )(分箱)。
- S315-6(到达时差):delta_form = | ( 1 / c_ref ) * ( ∫ n_eff d ell ) - ( ∫ ( n_eff / c_ref ) d ell ) |。
V. 统计流程 M30-15(三个端到端用例)
- 用例 A:离线评估与发布闸门(Batch → Freeze)
- 就绪
执行 standardize_names 与 repair_units(见《Methods.Cleaning》);time_align_for_stats(ds, sync_ref);compute_weights(ds, scheme)。 - 估计
fit_glm(ds, formula, family) 或导入模型打分;bootstrap_metric(fn, ds, B) 产出 {est, CI};calibration_report(pred, obs, bins)。 - 校核
detect_drift(ref, cur, metrics);evaluate_stat_contracts(metrics, rules);必要时 backtest_coverage(ds, plan)。 - 落盘
emit_stats_manifest(results, policy);与《Methods.Cleaning》freeze_release(ds, tag) 协同出库。
- 就绪
- 用例 B:在线 A/B 与序贯决策(Stream → Decide → Rollback/Ship)
- 就绪
design_experiment(pop, constraints, alpha, power);注册 alpha_budget 与 slo_policy。 - 运行
run_ab_test(stream, metric, alpha_spending) 产出实时 S_t 与中期决策;track_alpha_spending(seq_tests)。 - 守护
drift_monitor(ref, cur, methods);latency_summary(traces);暴露偏差时 estimate_ate(ds, method=DR)。 - 结项
compute_slo_attainment(metrics, slo);audit_decision(trace, manifest);若违约,执行回退计划与再实验。
- 就绪
- 用例 C:跨域校准迁移与基线更新(Domain A → Domain B)
- 就绪
采集 A/B 双域样本;对齐量纲 repair_units 与时基 time_align_for_stats。 - 迁移
calibration_transfer(src=A, dst=B, method ∈ {Platt, Isotonic, BBQ}) -> map;约束单调与过拟合。 - 验证
在 B 上评估 ECE, Brier 前后差;detect_drift 确保 W1/KL/psi 在阈内。 - 发布
emit_stats_manifest 写入 manifest.stats.calibration.*,包含 map.version, bins, ECE_before/after,并签名归档。
- 就绪
VI. 契约与断言(用例映射 C30-151x)
- C30-1511(权重归一):| W_norm - 1 | ≤ 0.01。
- C30-1512(覆盖度):coverage_rate ≥ SLO.coverage_min(离线 A)。
- C30-1513(校准):ECE_after ≤ ECE_before - delta_min 且 Brier ≤ SLO.Brier_max(跨域 C)。
- C30-1514(序贯错误):alpha_spent ≤ alpha_budget;FDR ≤ SLO.FDR_max(在线 B)。
- C30-1515(功效达成):当 n ≥ n_per_arm 且 MDE 达成才允许终止不足样本的试验(在线 B)。
- C30-1516(漂移阈):W1 ≤ W1_max ∧ KL ≤ KL_max ∧ psi ≤ psi_max 未满足则禁止推广(A/C)。
- C30-1517(两口径差):若存在 T_arr,断言 delta_form ≤ tol_Tarr(任一用例)。
- C30-1518(时延):latency_ms_p99 ≤ SLO.latency_p99_max(在线 B)。
VII. 实现绑定 I30-*(用例调用子集)
- 评估链:compute_weights → fit_glm → bootstrap_metric → calibration_report → evaluate_stat_contracts → emit_stats_manifest。
- 实验链:design_experiment → run_ab_test → track_alpha_spending → drift_monitor → latency_summary → audit_decision。
- 迁移链:calibration_transfer → calibration_report → detect_drift → emit_stats_manifest。
不变量:alpha_spent ≤ alpha_budget;sum(w_i)/N ≈ 1;metrics.window == Delta_t;signature 可验证。
VIII. 交叉引用
- 单位与量纲:见《Methods.Cleaning v1.0》第4章。
- 时间轴与同步:见《Methods.Cleaning v1.0》第5章。
- 多重比较:见本卷第6章。
- 漂移监测:见本卷第7章。
- A/B 设计与停序:见本卷第8章。
- 校准迁移:见本卷第9章。
- 合规与发布:见《Methods.Cleaning v1.0》第10章与本卷第14章。
- 执行图与背压:见《EFT.WP.Core.Threads v1.0》。
IX. 质量与风控
- 用例 A(离线)
- SLI:coverage_rate, ECE, Brier, W1/KL/psi。
- 回退:改用更保守区间(自助法/贝叶斯分位),扩大 B,或回滚到 ref。
- 用例 B(在线)
- SLI:latency_ms_p99, alpha_spent, FDR, decision_sign_stability。
- 回退:灰度缩容、停序冻结、撤销变体并保持 alpha_budget 守恒。
- 用例 C(跨域)
- SLI:ECE_after - ECE_before, Brier_after, drift_level。
- 回退:禁用 map,回到域内校准或触发再采样。
小结
三个用例分别覆盖离线评估、在线决策与跨域迁移的关键路径,均以 P315-* 为不可协商前提,以 S315-* 为计算基线,以 M30-15 为流程骨架,以 C30-151x 为发布闸门,并通过 I30-* 接口将统计口径与清洗/时基/审计体系联结为一体化的、可追溯的生产实践。版权与许可(CC BY 4.0)
版权声明:除另有说明外,《能量丝理论》(含文本、图表、插图、符号与公式)的著作权由作者(“屠广林”先生)享有。
许可方式:本作品采用 Creative Commons 署名 4.0 国际许可协议(CC BY 4.0)进行许可;在注明作者与来源的前提下,允许为商业或非商业目的进行复制、转载、节选、改编与再分发。
署名格式(建议):作者:“屠广林”;作品:《能量丝理论》;来源:energyfilament.org;许可证:CC BY 4.0。
首次发布: 2025-11-11|当前版本:v5.1
协议链接:https://creativecommons.org/licenses/by/4.0/