目录 / 文档-技术白皮书 / 15-EFT.WP.Methods.Falsification v1.0
I. 范围与目标
- 本章定义在线证伪的运行机制与守门策略,覆盖影子评估、红队流与金丝雀负样本注入、顺序/自适应检验联动、OOD 探测、在线一致性 delta_offon 与 R_infer 监测,以及 GateDecision ∈ {pass, hold, block} 的状态机与回退剧本。所有在线指标与离线证据通过共同时基 ts = alpha + beta * tau_mono 与环境锁 EnvLock 绑定,确保可追溯与可取证。
- 守门目标以风险预算 rho_budget 为上限,结合第8章的违例概率 r = P( violation | D ) 与覆盖预算 delta_cov,在满足 alpha_sig、beta_err 与 FDR 约束下实现最小化误阻断与漏阻断。
II. 术语与符号
- 流与窗口
- 观测序列:{(x_t, y_hat_t, y_t, meta_t)}_{t=1..};窗口:W_t = {t - w + 1, ..., t}。
- 违例指示:V_t ∈ {0,1};窗口违例率:r_hat_t = ( 1/|W_t| ) * Σ_{i ∈ W_t} V_i。
- 在线指标
- TS.latency_t,TS.thrpt_t,TS.error_t;门限 tau_latency,tau_thrpt_low,tau_error。
- 一致度:delta_offon_t = ( norm( y_hat_off_t - y_hat_on_t ) / max( norm( y_hat_off_t ), eps ) );R_infer_t = 1 - delta_offon_t。
- 风险与预算
违例概率:r_t = P( violation | D_t ) 或上界近似 r_hat_t;预算:rho_budget;在线显著性分配:alpha_spend(t);在线 FDR 目标:q_star。 - OOD 与校准
OOD(x_t),阈值 tau_ood;校准误差 ECE_t,MCE_t,NLL_t。 - 守门策略
- 决策函数:GateDecision_t = g( r_t, TS.latency_t, TS.error_t, OOD(x_t), ECE_t ; policy )。
- 状态集合与序:pass → hold → block,单调不降且可通过回退剧本解除。
III. 公设与最小方程
- P51-15(状态单调与最小干预公设)
在固定 policy 下,GateDecision 对触发证据单调不降;在满足风险预算 rho_budget 的前提下优先选择成本最低的干预(观测→限流→阻断)。 - P51-16(离在线一致性优先公设)
若 delta_offon_t > tau_offon,则一致性恢复优先于性能优化;GateDecision 至少提升一级(pass → hold)。 - P51-17(风险可加与预算守恒公设)
对独立子流 k=1..K,总风险预算满足 Σ_k rho_budget_k ≤ rho_budget;在线 alpha_spend(t) 满足 Σ_{i=1..t} alpha_i ≤ alpha_total。 - S52-37(EWMA 违例率)
Z_t = lambda * V_t + ( 1 - lambda ) * Z_{t-1 },判据:Z_t ≥ h → alarm;lambda ∈ (0,1]。 - S52-38(顺序概率比检验)
给定 H0: r ≤ r0,H1: r ≥ r1,似然比递推 LR_t = Π_{i=1..t} ( p_1(V_i) / p_0(V_i) );
决策:LR_t ≥ A → reject H0;LR_t ≤ B → accept H0;B < LR_t < A → continue,其中 A = (1 - beta_err) / alpha_sig,B = beta_err / (1 - alpha_sig)。 - S52-39(在线显著性分配)
alpha_spent(t) = Σ_{i=1..t} alpha_i ≤ alpha_total;一类分配:alpha_i = w_i * alpha_total,Σ_i w_i ≤ 1;二类分配:alpha_i = min( alpha_cap, c / (i + d) )。 - S52-40(在线 FDR 约束)
令 R_t 为累计拒绝数、V_t 为累计误拒绝,要求 FDR_t = E[ V_t / max( R_t, 1 ) ] ≤ q_star;通过自适应门控 alpha_i ← f( history ) 实现。 - S52-41(守门阈值与决策)
- 以第8章 S52-36 为基:
r_t ≥ tau_block → GateDecision_t = block;
tau_hold ≤ r_t < tau_block → GateDecision_t = hold;
r_t < tau_hold → GateDecision_t = pass。 - 扩展:若 TS.error_t ≥ tau_error 或 TS.latency_t ≥ tau_latency 或 OOD(x_t) ≥ tau_ood,则执行 GateDecision_t ← max( GateDecision_t, hold )。
- 以第8章 S52-36 为基:
- S52-42(在线覆盖与审计一致性)
覆盖估计 cov_hat_t = ( 1/|W_t| ) * Σ_{i∈W_t} 1[ y_i ∈ Pi(x_i) ];触发:cov_hat_t < 1 - delta_cov - tau_cov → hold/block。
IV. 数据与清单口径
- OnlineProbe.card
{topic, source, sample_rate, window:w, lambda, h, tau_error, tau_latency, tau_offon, tau_ood, alpha_total, q_star, anchor, EnvLock}。 - Shadow.card
{shadow_graph, traffic_fraction, golden_set_hash, oracle, Cal.sig, Gate.policy}。 - Canary.card
{mixing_rate, budget.cpu/gpu/mem, mut_ops, adversarial(eps), schedule, safety_constraints}。 - Gate.policy
{tau_hold, tau_block, tau_error, tau_latency, tau_thrpt_low, tau_offon, tau_ood, alpha_spend, rollback_playbook}。 - 审计产出
{gate_audit.log, decisions.parquet, lr_trace.csv, ewma.csv, coverage_online.csv, alarms.json, fingerprint, hash(·)}。
V. 算法与实现绑定
- 原型(扩展 I50-*)
- I50-19 gate_decide(r:float, ts:dict, ood:float, calib:dict, policy:dict) -> {decision:str, reason:dict}
- I50-20 shadow_eval(runtime:any, stream:any, oracle:any, policy:dict) -> ShadowReport
- I50-21 canary_inject(stream:any, ce_source:any, rate:float, budget:dict) -> CanaryRun
- I50-22 alpha_spend_scheduler(history:any, scheme:str, params:dict) -> alpha_i
- I50-23 ewma_drift(V_t:int, lambda:float, Z_prev:float) -> {Z_t:float, alarm:bool}
- I50-24 stream_sprt(V_t:int, state:dict, r0:float, r1:float, alpha:float, beta:float) -> {state, action:str}
- I50-25 rollback_execute(playbook:dict, level:str) -> Result
- 状态机(概述)
- 初始 pass:仅监测与记录。
- hold:降级与限流,扩大影子评估与金丝雀覆盖,收紧 alpha_i,提高 delta_cov 修正。
- block:阻断高风险事务,切换到安全基线或只读模式,触发 rollback_execute。
- 决策解释字段
{trigger ∈ {risk, latency, error, ood, offon, coverage}, metric_value, threshold, alpha_spent, lr_or_ewma_state}。
VI. 计量流程与运行图
- Mx-66 在线探针与违例聚合
采集 V_t 与 TS.*;计算 r_hat_t、Z_t、ECE_t、OOD(x_t);更新 alpha_spend(t) 与 GateDecision_t;落盘审计。 - Mx-67 影子评估与金丝雀负样本
将 traffic_fraction 路由到影子图 shadow_graph;按 mixing_rate 注入 canary 与对抗样本;对 golden_set_hash 周期回放;同步产出 ShadowReport。 - Mx-68 在线一致性与回退
计算 delta_offon_t 与 R_infer_t;当超阈时执行 hold/block,触发 rollback_execute(playbook);回退后验证 cov_hat_t 与 TS.* 恢复。 - Mx-69 守门—审计闭环
每次 decision 记录 reason 与阈值快照;每日滚动计算误阻断、漏阻断、检测时延与 alpha_spent(t);生成 Evidence.bundle。
VII. 验证与测试矩阵
- 功效与时延
- 仿真注入违例率阶跃:测 SPRT 的平均停止时间与真实功效;要求在 beta_err 目标内。
- EWMA 对小幅漂移检测时延小于目标 T_detect。
- FDR 与显著性预算
- 在线流上估计 FDR_t 的上置信界;满足 FDR_t ≤ q_star + margin。
- alpha_spend(t) 不越界,Σ alpha_i ≤ alpha_total。
- 可靠性与覆盖
- 实时 ECE_t、cov_hat_t 达到 ECE_target、1 - delta_cov - tau_cov。
- OOD 子流上 GateDecision 升级率满足策略预期,且关键事务误阻断率低于 rho_budget.
- 性能与回退
触发 hold/block 后 TS.latency 与 TS.error 在 T_recover 内恢复到阈内;回退可重复与幂等。
VIII. 交叉引用与依赖
- 依赖:第7章(SPRT、alpha-spending、FDR)、第8章(r、Pi(x)、cov_hat、GateDecision 扩展)、第6章(注入与编排算子)。
- 参考:《Core.Threads》(路由与编排)、《Core.Metrology》(在线度量)、《Core.Errors》(错误类型与门限)。
IX. 风险、限制与开放问题
- 风险与限制
流不交换性导致在线统计偏置;金丝雀与影子路径存在干扰;OOD 误报引发过度守门;限流与阻断对 TS.thrpt 二次影响;alpha 与覆盖预算分配不当引发预算枯竭。 - 开放问题
多策略门控的博弈优化(成本—风险—延迟);跨域 Gate.policy 的迁移与自适应;在线 FDR 与覆盖预算的统一调度器;对抗流的自举生成与闭环学习。
X. 交付件与版本管理
- 交付件
OnlineProbe.card,Shadow.card,Canary.card,Gate.policy,gate_audit.log,decisions.parquet,lr_trace.csv,ewma.csv,coverage_online.csv,Evidence.bundle(含 hash(·),fingerprint)。 - 版本策略
门限微调与预算再分配记 minor;状态机或决策函数 g(·) 变更记 major;任何审计字段结构变化需更新签名并登记附录C。
版权与许可(CC BY 4.0)
版权声明:除另有说明外,《能量丝理论》(含文本、图表、插图、符号与公式)的著作权由作者(“屠广林”先生)享有。
许可方式:本作品采用 Creative Commons 署名 4.0 国际许可协议(CC BY 4.0)进行许可;在注明作者与来源的前提下,允许为商业或非商业目的进行复制、转载、节选、改编与再分发。
署名格式(建议):作者:“屠广林”;作品:《能量丝理论》;来源:energyfilament.org;许可证:CC BY 4.0。
首次发布: 2025-11-11|当前版本:v5.1
协议链接:https://creativecommons.org/licenses/by/4.0/