目录文档-技术白皮书15-EFT.WP.Methods.Falsification v1.0

第9章 在线证伪与守门


I. 范围与目标


II. 术语与符号

  1. 流与窗口
    • 观测序列:{(x_t, y_hat_t, y_t, meta_t)}_{t=1..};窗口:W_t = {t - w + 1, ..., t}。
    • 违例指示:V_t ∈ {0,1};窗口违例率:r_hat_t = ( 1/|W_t| ) * Σ_{i ∈ W_t} V_i。
  2. 在线指标
    • TS.latency_t,TS.thrpt_t,TS.error_t;门限 tau_latency,tau_thrpt_low,tau_error。
    • 一致度:delta_offon_t = ( norm( y_hat_off_t - y_hat_on_t ) / max( norm( y_hat_off_t ), eps ) );R_infer_t = 1 - delta_offon_t。
  3. 风险与预算
    违例概率:r_t = P( violation | D_t ) 或上界近似 r_hat_t;预算:rho_budget;在线显著性分配:alpha_spend(t);在线 FDR 目标:q_star。
  4. OOD 与校准
    OOD(x_t),阈值 tau_ood;校准误差 ECE_t,MCE_t,NLL_t。
  5. 守门策略
    • 决策函数:GateDecision_t = g( r_t, TS.latency_t, TS.error_t, OOD(x_t), ECE_t ; policy )。
    • 状态集合与序:pass → hold → block,单调不降且可通过回退剧本解除。

III. 公设与最小方程

  1. P51-15(状态单调与最小干预公设)
    在固定 policy 下,GateDecision 对触发证据单调不降;在满足风险预算 rho_budget 的前提下优先选择成本最低的干预(观测→限流→阻断)。
  2. P51-16(离在线一致性优先公设)
    若 delta_offon_t > tau_offon,则一致性恢复优先于性能优化;GateDecision 至少提升一级(pass → hold)。
  3. P51-17(风险可加与预算守恒公设)
    对独立子流 k=1..K,总风险预算满足 Σ_k rho_budget_k ≤ rho_budget;在线 alpha_spend(t) 满足 Σ_{i=1..t} alpha_i ≤ alpha_total。
  4. S52-37(EWMA 违例率)
    Z_t = lambda * V_t + ( 1 - lambda ) * Z_{t-1 },判据:Z_t ≥ h → alarm;lambda ∈ (0,1]。
  5. S52-38(顺序概率比检验)
    给定 H0: r ≤ r0,H1: r ≥ r1,似然比递推 LR_t = Π_{i=1..t} ( p_1(V_i) / p_0(V_i) );
    决策:LR_t ≥ A → reject H0;LR_t ≤ B → accept H0;B < LR_t < A → continue,其中 A = (1 - beta_err) / alpha_sig,B = beta_err / (1 - alpha_sig)。
  6. S52-39(在线显著性分配)
    alpha_spent(t) = Σ_{i=1..t} alpha_i ≤ alpha_total;一类分配:alpha_i = w_i * alpha_total,Σ_i w_i ≤ 1;二类分配:alpha_i = min( alpha_cap, c / (i + d) )。
  7. S52-40(在线 FDR 约束)
    令 R_t 为累计拒绝数、V_t 为累计误拒绝,要求 FDR_t = E[ V_t / max( R_t, 1 ) ] ≤ q_star;通过自适应门控 alpha_i ← f( history ) 实现。
  8. S52-41(守门阈值与决策)
    • 以第8章 S52-36 为基:
      r_t ≥ tau_block → GateDecision_t = block;
      tau_hold ≤ r_t < tau_block → GateDecision_t = hold;
      r_t < tau_hold → GateDecision_t = pass。
    • 扩展:若 TS.error_t ≥ tau_error 或 TS.latency_t ≥ tau_latency 或 OOD(x_t) ≥ tau_ood,则执行 GateDecision_t ← max( GateDecision_t, hold )。
  9. S52-42(在线覆盖与审计一致性)
    覆盖估计 cov_hat_t = ( 1/|W_t| ) * Σ_{i∈W_t} 1[ y_i ∈ Pi(x_i) ];触发:cov_hat_t < 1 - delta_cov - tau_cov → hold/block。

IV. 数据与清单口径


V. 算法与实现绑定

  1. 原型(扩展 I50-*)
    • I50-19 gate_decide(r:float, ts:dict, ood:float, calib:dict, policy:dict) -> {decision:str, reason:dict}
    • I50-20 shadow_eval(runtime:any, stream:any, oracle:any, policy:dict) -> ShadowReport
    • I50-21 canary_inject(stream:any, ce_source:any, rate:float, budget:dict) -> CanaryRun
    • I50-22 alpha_spend_scheduler(history:any, scheme:str, params:dict) -> alpha_i
    • I50-23 ewma_drift(V_t:int, lambda:float, Z_prev:float) -> {Z_t:float, alarm:bool}
    • I50-24 stream_sprt(V_t:int, state:dict, r0:float, r1:float, alpha:float, beta:float) -> {state, action:str}
    • I50-25 rollback_execute(playbook:dict, level:str) -> Result
  2. 状态机(概述)
    • 初始 pass:仅监测与记录。
    • hold:降级与限流,扩大影子评估与金丝雀覆盖,收紧 alpha_i,提高 delta_cov 修正。
    • block:阻断高风险事务,切换到安全基线或只读模式,触发 rollback_execute。
  3. 决策解释字段
    {trigger ∈ {risk, latency, error, ood, offon, coverage}, metric_value, threshold, alpha_spent, lr_or_ewma_state}。

VI. 计量流程与运行图


VII. 验证与测试矩阵

  1. 功效与时延
    • 仿真注入违例率阶跃:测 SPRT 的平均停止时间与真实功效;要求在 beta_err 目标内。
    • EWMA 对小幅漂移检测时延小于目标 T_detect。
  2. FDR 与显著性预算
    • 在线流上估计 FDR_t 的上置信界;满足 FDR_t ≤ q_star + margin。
    • alpha_spend(t) 不越界,Σ alpha_i ≤ alpha_total。
  3. 可靠性与覆盖
    • 实时 ECE_t、cov_hat_t 达到 ECE_target、1 - delta_cov - tau_cov。
    • OOD 子流上 GateDecision 升级率满足策略预期,且关键事务误阻断率低于 rho_budget.
  4. 性能与回退
    触发 hold/block 后 TS.latency 与 TS.error 在 T_recover 内恢复到阈内;回退可重复与幂等。

VIII. 交叉引用与依赖


IX. 风险、限制与开放问题


X. 交付件与版本管理


版权与许可(CC BY 4.0)

版权声明:除另有说明外,《能量丝理论》(含文本、图表、插图、符号与公式)的著作权由作者(“屠广林”先生)享有。
许可方式:本作品采用 Creative Commons 署名 4.0 国际许可协议(CC BY 4.0)进行许可;在注明作者与来源的前提下,允许为商业或非商业目的进行复制、转载、节选、改编与再分发。
署名格式(建议):作者:“屠广林”;作品:《能量丝理论》;来源:energyfilament.org;许可证:CC BY 4.0。

首次发布: 2025-11-11|当前版本:v5.1
协议链接:https://creativecommons.org/licenses/by/4.0/