目录文档-技术白皮书18-EFT.WP.Methods.CrossStats v1.0

第15章 用例与参考实现


一句话目标:以三个端到端范式(离线评估、在线 A/B、跨域校准迁移)演示 P30x/S30x/M30/I30 的落地路径,形成可审计、可复现、可回退的统计实践闭环。


I. 范围与对象

  1. 范围
    离线模型评估与发布闸门;在线实验(序贯/多重)决策闭环;跨域校准迁移与基线更新。
  2. 对象
    • 输入:D_clean, manifest.*, ref, slo_policy, alpha_budget, bins, sync_ref。
    • 输出:eval_report, ab_decision, calibration_map, drift_report, slo_attainment, manifest.stats.*。
    • 约束:check_dim(expr) 通过;窗口在 tau_mono;涉及 T_arr 必并行两口径并记录 delta_form。

II. 名词与变量


III. 公设 P315-*


IV. 最小方程 S315-*


V. 统计流程 M30-15(三个端到端用例)

  1. 用例 A:离线评估与发布闸门(Batch → Freeze)
    • 就绪
      执行 standardize_names 与 repair_units(见《Methods.Cleaning》);time_align_for_stats(ds, sync_ref);compute_weights(ds, scheme)。
    • 估计
      fit_glm(ds, formula, family) 或导入模型打分;bootstrap_metric(fn, ds, B) 产出 {est, CI};calibration_report(pred, obs, bins)。
    • 校核
      detect_drift(ref, cur, metrics);evaluate_stat_contracts(metrics, rules);必要时 backtest_coverage(ds, plan)。
    • 落盘
      emit_stats_manifest(results, policy);与《Methods.Cleaning》freeze_release(ds, tag) 协同出库。
  2. 用例 B:在线 A/B 与序贯决策(Stream → Decide → Rollback/Ship)
    • 就绪
      design_experiment(pop, constraints, alpha, power);注册 alpha_budget 与 slo_policy。
    • 运行
      run_ab_test(stream, metric, alpha_spending) 产出实时 S_t 与中期决策;track_alpha_spending(seq_tests)。
    • 守护
      drift_monitor(ref, cur, methods);latency_summary(traces);暴露偏差时 estimate_ate(ds, method=DR)。
    • 结项
      compute_slo_attainment(metrics, slo);audit_decision(trace, manifest);若违约,执行回退计划与再实验。
  3. 用例 C:跨域校准迁移与基线更新(Domain A → Domain B)
    • 就绪
      采集 A/B 双域样本;对齐量纲 repair_units 与时基 time_align_for_stats。
    • 迁移
      calibration_transfer(src=A, dst=B, method ∈ {Platt, Isotonic, BBQ}) -> map;约束单调与过拟合。
    • 验证
      在 B 上评估 ECE, Brier 前后差;detect_drift 确保 W1/KL/psi 在阈内。
    • 发布
      emit_stats_manifest 写入 manifest.stats.calibration.*,包含 map.version, bins, ECE_before/after,并签名归档。

VI. 契约与断言(用例映射 C30-151x)


VII. 实现绑定 I30-*(用例调用子集)

不变量:alpha_spent ≤ alpha_budget;sum(w_i)/N ≈ 1;metrics.window == Delta_t;signature 可验证。


VIII. 交叉引用


IX. 质量与风控

  1. 用例 A(离线)
    • SLI:coverage_rate, ECE, Brier, W1/KL/psi。
    • 回退:改用更保守区间(自助法/贝叶斯分位),扩大 B,或回滚到 ref。
  2. 用例 B(在线)
    • SLI:latency_ms_p99, alpha_spent, FDR, decision_sign_stability。
    • 回退:灰度缩容、停序冻结、撤销变体并保持 alpha_budget 守恒。
  3. 用例 C(跨域)
    • SLI:ECE_after - ECE_before, Brier_after, drift_level。
    • 回退:禁用 map,回到域内校准或触发再采样。

小结

三个用例分别覆盖离线评估、在线决策与跨域迁移的关键路径,均以 P315-* 为不可协商前提,以 S315-* 为计算基线,以 M30-15 为流程骨架,以 C30-151x 为发布闸门,并通过 I30-* 接口将统计口径与清洗/时基/审计体系联结为一体化的、可追溯的生产实践。

版权与许可(CC BY 4.0)

版权声明:除另有说明外,《能量丝理论》(含文本、图表、插图、符号与公式)的著作权由作者(“屠广林”先生)享有。
许可方式:本作品采用 Creative Commons 署名 4.0 国际许可协议(CC BY 4.0)进行许可;在注明作者与来源的前提下,允许为商业或非商业目的进行复制、转载、节选、改编与再分发。
署名格式(建议):作者:“屠广林”;作品:《能量丝理论》;来源:energyfilament.org;许可证:CC BY 4.0。

首次发布: 2025-11-11|当前版本:v5.1
协议链接:https://creativecommons.org/licenses/by/4.0/