目录 / 文档-技术白皮书 / 18-EFT.WP.Methods.CrossStats v1.0
一句话目标:定义统计服务的 SLI/SLO 体系、度量与审计闭环,使估计、检验与决策在计量、时基与到达时两口径上可监控、可追溯、可回退。
I. 范围与对象
- 范围
- 统计服务运行时质量治理:覆盖度、错误率、功效达成、漂移、时延、可复现性与合规审计。
- 适用在线实验、离线评估、批/流混合管线。
- 对象
- 输入:manifest.stats.*, trace, logs, metrics(stream),以及参考基线 ref。
- 输出:audit_report, slo_attainment, violation_events, rollback_plan。
- 时基:度量窗口在 tau_mono 上计算,对外以 ts 发布并附 offset/skew/J;涉及 T_arr 必记两口径与 delta_form。
II. 名词与变量
- 覆盖度与校准:coverage_rate, ECE, Brier。
- 错误与功效:FPR, FNR, FDR, power, MDE。
- 时延与吞吐:latency_ms_p50/p95/p99, throughput, staleness。
- 漂移与基线:W1, KL, psi, drift_level, drift_slope。
- 复现与审计:repro_hash = hash_sha256(blob), audit_completeness。
- 到达时一致:T_arr 两口径与 delta_form。
III. 公设 P314-*
- P314-1(口径统一):所有质量度量遵循统一测度与单位,发布前执行 check_dim(expr)。
- P314-2(窗口显式):度量窗口 Delta_t 与对齐策略显式记录,不得隐式滑动。
- P314-3(两口径并行):涉及 T_arr 的服务,必须并行记录两口径并落盘 delta_form。
- P314-4(SLO 前置):在上线前冻结 SLO 与告警策略卡,运行中不得临时下调阈值。
- P314-5(可复现):任何发布结论必须可由 repro_hash 与 manifest 完整复现。
IV. 最小方程 S314-*
- S314-1(覆盖度估计):coverage_rate = ( 1 / N ) * ∑ 1{ theta_true ∈ CI_i }(有真值或合成基准时)。
- S314-2(校准误差):ECE = ∑_{b=1..B} ( n_b / N ) * | acc_b - conf_b |。
- S314-3(错误率与功效):FPR = FP / (FP + TN), FNR = FN / (TP + FN), power = 1 - beta。
- S314-4(FDR 控制):FDR = E[ V / max(R,1) ],序贯时以支出函数累计 alpha_spent ≤ alpha_budget。
- S314-5(时延分位):latency_ms_pq = quantile( latency_ms, q )。
- S314-6(漂移度量):W1(p,q), KL(p||q), psi = ∑ ( (q_i - p_i) * ln(q_i/p_i) )(分箱口径)。
- S314-7(到达时差异):delta_form = | ( 1 / c_ref ) * ( ∫ n_eff d ell ) - ( ∫ ( n_eff / c_ref ) d ell ) |。
- S314-8(审计完整度):audit_completeness = (#present_required_fields) / (#required_fields)。
V. 统计流程 M30-14(定义→埋点→计算→判定→审计→回退)
- 定义
冻结 SLO:coverage_min, ECE_max, FPR_max, power_min, latency_p99_max, psi_max 等。 - 埋点
在 thr/chan 与算子边界收集 latency, throughput, staleness,记录 TraceID。 - 计算
在窗口 Delta_t 内计算 S314-* 度量;若无真值,采用合成插入或 PPC 估计覆盖度。 - 判定
依据契约 C30-14xx 生成 violation_events,并写入 manifest.stats.audit.*。 - 审计
生成签名报告,附 repro_hash, alpha_spent, drift_report 与证据链接。 - 回退
触发策略卡:降级口径、冻结发布、回滚到 ref、扩大样本或重采样加深不确定度评估。
VI. 契约与断言 C30-14xx
- C30-1401(覆盖度):coverage_rate ≥ SLO.coverage_min(仿真或回测口径)。
- C30-1402(校准):ECE ≤ SLO.ECE_max,Brier ≤ SLO.Brier_max。
- C30-1403(错误率):FPR ≤ SLO.FPR_max 且 FDR ≤ SLO.FDR_max。
- C30-1404(功效):power ≥ SLO.power_min 或已达到 MDE 指标。
- C30-1405(时延):latency_ms_p99 ≤ SLO.latency_p99_max,staleness ≤ SLO.staleness_max。
- C30-1406(漂移):W1 ≤ W1_max ∧ KL ≤ KL_max ∧ psi ≤ psi_max,否则触发再校准或回退。
- C30-1407(两口径差):若含 T_arr,断言 delta_form ≤ tol_Tarr。
- C30-1408(alpha 预算):alpha_spent ≤ alpha_budget(含序贯与多重比较)。
- C30-1409(复现与署名):repro_hash 与 signature 存在且可校验;audit_completeness ≥ 0.98。
- C30-1410(稳健性):decision_sign_stability ≥ SLO.dec_stability_min(自助法或留一法)。
VII. 实现绑定 I30-*
- I30-141 collect_sli(stream, spec) -> metrics
- I30-142 compute_slo_attainment(metrics, slo) -> attainment
- I30-143 backtest_coverage(ds, plan) -> coverage_rate
- I30-144 calibration_report(pred, obs, bins) -> {ECE, Brier}
- I30-145 track_alpha_spending(seq_tests) -> {alpha_spent, budget_ok}
- I30-146 drift_monitor(ref, cur, methods) -> drift_report
- I30-147 latency_summary(traces) -> {p50,p95,p99,staleness}
- I30-148 audit_decision(trace, manifest) -> audit_report
- I30-149 reproducibility_hashes(env, code, data_ptrs) -> repro_hash
- I30-14A emit_stats_audit(results, policy) -> manifest.stats.audit
不变量:alpha_spent ≤ alpha_budget;metrics.window == Delta_t;sum(w_i)/N ≈ 1(若使用加权);signature 可验证。
VIII. 交叉引用
- 量纲与单位:见《Methods.Cleaning v1.0》第4章。
- 时间轴与同步:见《Methods.Cleaning v1.0》第5章。
- 多重比较与错误控制:见本卷第6章。
- 漂移与分布对齐:见本卷第7章。
- 审计清单与签名:见《Methods.Cleaning v1.0》第10章与本卷附录C。
IX. 质量与风控
- SLI/SLO 面板建议
- 基线:coverage_rate, ECE, FDR, latency_ms_p99, psi, alpha_spent, audit_completeness, decision_sign_stability。
- 运行级:throughput, queue.rho, W_q, error_rate_ops。
- 回退策略
- 轻度违约:提高窗口、触发再采样、自助法扩大区间。
- 中度违约:冻结新发布,应用稳健口径(HK/贝叶斯更保守先验)。
- 重度违约/安全阈:回滚到 ref 版本,强制再标定与再审计。
- 审计追溯
以 TraceID 串联 manifest、代码版本与数据切片;校验 repro_hash 一致后归档。
小结
本章以 S314-* 度量和 C30-14xx 契约构成统计服务的质量闸门,并通过 M30-14 流程、I30-* 实现与跨卷时基/计量口径对齐,确保统计结论在准确性、及时性与可复现性上满足既定 SLO。版权与许可(CC BY 4.0)
版权声明:除另有说明外,《能量丝理论》(含文本、图表、插图、符号与公式)的著作权由作者(“屠广林”先生)享有。
许可方式:本作品采用 Creative Commons 署名 4.0 国际许可协议(CC BY 4.0)进行许可;在注明作者与来源的前提下,允许为商业或非商业目的进行复制、转载、节选、改编与再分发。
署名格式(建议):作者:“屠广林”;作品:《能量丝理论》;来源:energyfilament.org;许可证:CC BY 4.0。
首次发布: 2025-11-11|当前版本:v5.1
协议链接:https://creativecommons.org/licenses/by/4.0/