15-EFT.WP.Methods.Falsification v1.0 | 第9章在线证伪与守门

目录／文档-技术白皮书（V5.05）／ 15-EFT.WP.Methods.Falsification v1.0

第9章在线证伪与守门

I. 范围与目标

本章定义在线证伪的运行机制与守门策略，覆盖影子评估、红队流与金丝雀负样本注入、顺序/自适应检验联动、OOD 探测、在线一致性 delta_offon 与 R_infer 监测，以及 GateDecision ∈ {pass, hold, block} 的状态机与回退剧本。所有在线指标与离线证据通过共同时基 ts = alpha + beta * tau_mono 与环境锁 EnvLock 绑定，确保可追溯与可取证。
守门目标以风险预算 rho_budget 为上限，结合第8章的违例概率 r = P( violation | D ) 与覆盖预算 delta_cov，在满足 alpha_sig、beta_err 与 FDR 约束下实现最小化误阻断与漏阻断。

II. 术语与符号

流与窗口
- 观测序列：{(x_t, y_hat_t, y_t, meta_t)}_{t=1..}；窗口：W_t = {t - w + 1, ..., t}。
- 违例指示：V_t ∈ {0,1}；窗口违例率：r_hat_t = ( 1/|W_t| ) * Σ_{i ∈ W_t} V_i。
在线指标
- TS.latency_t，TS.thrpt_t，TS.error_t；门限 tau_latency，tau_thrpt_low，tau_error。
- 一致度：delta_offon_t = ( norm( y_hat_off_t - y_hat_on_t ) / max( norm( y_hat_off_t ), eps ) )；R_infer_t = 1 - delta_offon_t。
风险与预算
违例概率：r_t = P( violation | D_t ) 或上界近似 r_hat_t；预算：rho_budget；在线显著性分配：alpha_spend(t)；在线 FDR 目标：q_star。
OOD 与校准
OOD(x_t)，阈值 tau_ood；校准误差 ECE_t，MCE_t，NLL_t。
守门策略
- 决策函数：GateDecision_t = g( r_t, TS.latency_t, TS.error_t, OOD(x_t), ECE_t ; policy )。
- 状态集合与序：pass → hold → block，单调不降且可通过回退剧本解除。

III. 公设与最小方程

P51-15（状态单调与最小干预公设）
在固定 policy 下，GateDecision 对触发证据单调不降；在满足风险预算 rho_budget 的前提下优先选择成本最低的干预（观测→限流→阻断）。
P51-16（离在线一致性优先公设）
若 delta_offon_t > tau_offon，则一致性恢复优先于性能优化；GateDecision 至少提升一级（pass → hold）。
P51-17（风险可加与预算守恒公设）
对独立子流 k=1..K，总风险预算满足 Σ_k rho_budget_k ≤ rho_budget；在线 alpha_spend(t) 满足 Σ_{i=1..t} alpha_i ≤ alpha_total。
S52-37（EWMA 违例率）
Z_t = lambda * V_t + ( 1 - lambda ) * Z_{t-1 }，判据：Z_t ≥ h → alarm；lambda ∈ (0,1]。
S52-38（顺序概率比检验）
给定 H0: r ≤ r0，H1: r ≥ r1，似然比递推 LR_t = Π_{i=1..t} ( p_1(V_i) / p_0(V_i) )；
决策：LR_t ≥ A → reject H0；LR_t ≤ B → accept H0；B < LR_t < A → continue，其中 A = (1 - beta_err) / alpha_sig，B = beta_err / (1 - alpha_sig)。
S52-39（在线显著性分配）
alpha_spent(t) = Σ_{i=1..t} alpha_i ≤ alpha_total；一类分配：alpha_i = w_i * alpha_total，Σ_i w_i ≤ 1；二类分配：alpha_i = min( alpha_cap, c / (i + d) )。
S52-40（在线 FDR 约束）
令 R_t 为累计拒绝数、V_t 为累计误拒绝，要求 FDR_t = E[ V_t / max( R_t, 1 ) ] ≤ q_star；通过自适应门控 alpha_i ← f( history ) 实现。
S52-41（守门阈值与决策）
- 以第8章 S52-36 为基：
  r_t ≥ tau_block → GateDecision_t = block；
  tau_hold ≤ r_t < tau_block → GateDecision_t = hold；
  r_t < tau_hold → GateDecision_t = pass。
- 扩展：若 TS.error_t ≥ tau_error 或 TS.latency_t ≥ tau_latency 或 OOD(x_t) ≥ tau_ood，则执行 GateDecision_t ← max( GateDecision_t, hold )。
S52-42（在线覆盖与审计一致性）
覆盖估计 cov_hat_t = ( 1/|W_t| ) * Σ_{i∈W_t} 1[ y_i ∈ Pi(x_i) ]；触发：cov_hat_t < 1 - delta_cov - tau_cov → hold/block。

IV. 数据与清单口径

OnlineProbe.card
{topic, source, sample_rate, window:w, lambda, h, tau_error, tau_latency, tau_offon, tau_ood, alpha_total, q_star, anchor, EnvLock}。
Shadow.card
{shadow_graph, traffic_fraction, golden_set_hash, oracle, Cal.sig, Gate.policy}。
Canary.card
{mixing_rate, budget.cpu/gpu/mem, mut_ops, adversarial(eps), schedule, safety_constraints}。
Gate.policy
{tau_hold, tau_block, tau_error, tau_latency, tau_thrpt_low, tau_offon, tau_ood, alpha_spend, rollback_playbook}。
审计产出
{gate_audit.log, decisions.parquet, lr_trace.csv, ewma.csv, coverage_online.csv, alarms.json, fingerprint, hash(·)}。

V. 算法与实现绑定

原型（扩展 I50-*）
- I50-19 gate_decide(r:float, ts:dict, ood:float, calib:dict, policy:dict) -> {decision:str, reason:dict}
- I50-20 shadow_eval(runtime:any, stream:any, oracle:any, policy:dict) -> ShadowReport
- I50-21 canary_inject(stream:any, ce_source:any, rate:float, budget:dict) -> CanaryRun
- I50-22 alpha_spend_scheduler(history:any, scheme:str, params:dict) -> alpha_i
- I50-23 ewma_drift(V_t:int, lambda:float, Z_prev:float) -> {Z_t:float, alarm:bool}
- I50-24 stream_sprt(V_t:int, state:dict, r0:float, r1:float, alpha:float, beta:float) -> {state, action:str}
- I50-25 rollback_execute(playbook:dict, level:str) -> Result
状态机（概述）
- 初始 pass：仅监测与记录。
- hold：降级与限流，扩大影子评估与金丝雀覆盖，收紧 alpha_i，提高 delta_cov 修正。
- block：阻断高风险事务，切换到安全基线或只读模式，触发 rollback_execute。
决策解释字段
{trigger ∈ {risk, latency, error, ood, offon, coverage}, metric_value, threshold, alpha_spent, lr_or_ewma_state}。

VI. 计量流程与运行图

Mx-66 在线探针与违例聚合
采集 V_t 与 TS.*；计算 r_hat_t、Z_t、ECE_t、OOD(x_t)；更新 alpha_spend(t) 与 GateDecision_t；落盘审计。
Mx-67 影子评估与金丝雀负样本
将 traffic_fraction 路由到影子图 shadow_graph；按 mixing_rate 注入 canary 与对抗样本；对 golden_set_hash 周期回放；同步产出 ShadowReport。
Mx-68 在线一致性与回退
计算 delta_offon_t 与 R_infer_t；当超阈时执行 hold/block，触发 rollback_execute(playbook)；回退后验证 cov_hat_t 与 TS.* 恢复。
Mx-69 守门—审计闭环
每次 decision 记录 reason 与阈值快照；每日滚动计算误阻断、漏阻断、检测时延与 alpha_spent(t)；生成 Evidence.bundle。

VII. 验证与测试矩阵

功效与时延
- 仿真注入违例率阶跃：测 SPRT 的平均停止时间与真实功效；要求在 beta_err 目标内。
- EWMA 对小幅漂移检测时延小于目标 T_detect。
FDR 与显著性预算
- 在线流上估计 FDR_t 的上置信界；满足 FDR_t ≤ q_star + margin。
- alpha_spend(t) 不越界，Σ alpha_i ≤ alpha_total。
可靠性与覆盖
- 实时 ECE_t、cov_hat_t 达到 ECE_target、1 - delta_cov - tau_cov。
- OOD 子流上 GateDecision 升级率满足策略预期，且关键事务误阻断率低于 rho_budget.
性能与回退
触发 hold/block 后 TS.latency 与 TS.error 在 T_recover 内恢复到阈内；回退可重复与幂等。

VIII. 交叉引用与依赖

依赖：第7章（SPRT、alpha-spending、FDR）、第8章（r、Pi(x)、cov_hat、GateDecision 扩展）、第6章（注入与编排算子）。
参考：《Core.Threads》（路由与编排）、《Core.Metrology》（在线度量）、《Core.Errors》（错误类型与门限）。

IX. 风险、限制与开放问题

风险与限制
流不交换性导致在线统计偏置；金丝雀与影子路径存在干扰；OOD 误报引发过度守门；限流与阻断对 TS.thrpt 二次影响；alpha 与覆盖预算分配不当引发预算枯竭。
开放问题
多策略门控的博弈优化（成本—风险—延迟）；跨域 Gate.policy 的迁移与自适应；在线 FDR 与覆盖预算的统一调度器；对抗流的自举生成与闭环学习。

X. 交付件与版本管理

交付件
OnlineProbe.card，Shadow.card，Canary.card，Gate.policy，gate_audit.log，decisions.parquet，lr_trace.csv，ewma.csv，coverage_online.csv，Evidence.bundle（含 hash(·)，fingerprint）。
版本策略
门限微调与预算再分配记 minor；状态机或决策函数 g(·) 变更记 major；任何审计字段结构变化需更新签名并登记附录C。

版权与许可：除另有说明外，《能量丝理论》（含文本、图表、插图、符号与公式）的著作权由作者（屠广林）享有。
许可方式（CC BY 4.0）：在注明作者与来源的前提下，允许复制、转载、节选、改编与再分发。
署名格式（建议）：作者：屠广林｜作品：《能量丝理论》｜来源：energyfilament.org｜许可证：CC BY 4.0
验证召集： 作者独立自费、无雇主无资助；下一阶段将优先在最愿意公开讨论、公开复现、公开挑错的环境中推进落地，不限国家。欢迎各国媒体与同行抓住窗口组织验证，并与我们联系。
版本信息： 首次发布：2025-11-11 ｜当前版本：v6.0+5.05