目录 / 文档-技术白皮书 / 15-EFT.WP.Methods.Falsification v1.0
I. 范围与目标
- 本章规定语义化版本、通道发布与回退剧本;以非退化门 nonregression、双跑对照与漂移守门构成回归防御主线。覆盖对象含数据/模型/代码/配置/运行环境 EnvLock 与依赖图 Graph.sig 的任何变更。
- 目标:在 canary → stable → LTS 的通道上,以最小爆炸半径与可回溯审计,保证 GateDecision ∈ {pass, hold, block} 的形成满足证伪可重复与合规模板(见第10章)。
II. 术语与符号
- 版本与通道
- ver = MAJOR.MINOR.PATCH,channel ∈ {canary, stable, LTS},baseline,candidate。
- 变更分类:chg.code,chg.data,chg.config,chg.env;影响面 blast_frac ∈ (0,1]。
- 回归与一致性
- 指标:score_base,score_cand,delta_baseline = ( score_cand - score_base ),非退化边界 tau_nonreg。
- 双跑一致率:eq_rate = ( 1/N ) * Σ 1[ y_cand == y_base ];分布漂移度量:D_KS,MMD。
- 在线一致性:delta_offon,R_infer = 1 - delta_offon;SLO:TS.latency,TS.error。
- 风险与预算
alpha/beta,power(见第7章),alpha-spending(见第7章),risk_budget.change,rollback_window,rollback_trigger。 - 签名与锁定
EnvLock,Graph.sig,ParamCard.sig,InferPipelineCard.sig,DiffCard,CHANGELOG。
III. 公设与最小方程
- P51-71(基线不可变公设)
一旦发布 baseline 与其 EnvLock、Graph.sig、ParamCard.sig 被登记,任何回归判定均以该冻结基线为唯一对照。 - P51-72(通道守恒公设)
任一候选版本若未通过非退化门、双跑一致门与漂移门,则不得从 canary 升级至更稳定通道。 - S52-71(非退化门最小方程)
delta_baseline = ( score_cand - score_base );
非退化通过条件:delta_baseline ≥ - tau_nonreg;
若 P( delta_baseline < - tau_nonreg | D ) ≥ alpha,则 block。 - S52-72(双跑等效门)
一致率:eq_rate = ( 1/N ) * Σ 1[ y_cand == y_base ];
或距离:dist = ( 1/N ) * Σ L( y_cand_i , y_base_i );
通过门:eq_rate ≥ tau_eq 或 dist ≤ tau_dist,并满足 power ≥ power_min。 - S52-73(漂移守门)
设输入特征分布漂移统计 D_KS 或 MMD,拒绝域 C_alpha;
条件:P( D ∈ C_alpha | H0: no_drift ) ≤ alpha_drift;若拒绝 H0 且 impact(score) 估计为负,则 hold/block。 - S52-74(爆炸半径与渐进放量)
设放量曲线 blast_frac(t),单调非减且 blast_frac(0) = f0,lim_{t→∞} blast_frac(t) = 1;
风险约束:E[ loss(t) ] ≤ risk_budget.change。示例:blast_frac(t) = min( 1 , f0 * r^t )。 - S52-75(回退触发)
触发集合 T = { TS.error > tau_error , TS.latency > tau_latency , delta_offon > tau_offon_max , eq_rate < tau_eq_min };
若 any(T) 成立且 alpha_spent 未超限,则执行 rollback 并记录 AuditTrail。
IV. 数据与清单口径
- 变更提案 ChangeProposal 必含:
- 版本标识 ver 与通道;CHANGELOG 条目;DiffCard(Graph.sig 差异、ParamCard.sig 差异、InferPipelineCard.sig 差异);schema_ver 与 compat_api 矩阵。
- 非退化门参数:tau_nonreg、主指标 score 定义与单位、损失 L(·,·)、目标 power_min、alpha/beta。
- 双跑设计:shadow_pct,样本路由与 ts = alpha + beta * tau_mono 对齐策略。
- 漂移守门:统计量选择、alpha_drift、impact(score) 估计口径。
- 放量与回退:blast_frac(t)、rollback_trigger、rollback_window。
- 追溯与合规
全部评测集以 hash(·) 与 fingerprint 登记;入湖 CoverageReport、RegressionReport、GateLogs;校验 check_dim(expr) 通过后方可对外。
V. 算法与实现绑定
- 新增原型(承接 I50-10 regress_guard):
- I50-60 diff_signatures(base:any, cand:any) -> DiffCard
- I50-61 plan_rollout(f0:float, r:float, policy:dict) -> {blast_frac:callable}
- I50-62 dual_run_compare(stream:any, router:dict, loss:str) -> {eq_rate:float, dist:float}
- I50-63 drift_guard(X_base:any, X_cand:any, stat:str, alpha:float) -> {reject:bool, p_value:float}
- I50-64 rollback_controller(triggers:dict, window:int) -> {decision:str, reason:str}
- I50-65 nonregression_matrix(metrics:list, tau:dict) -> RegressionReport
- 伪代码(缩略)
regress_guard:- DiffCard <- diff_signatures(base, cand)
- (eq_rate, dist) <- dual_run_compare(stream, router, loss)
- nr_ok <- ( delta_baseline ≥ - tau_nonreg ) ∧ power_ok
- drift <- drift_guard(X_base, X_cand, stat, alpha_drift)
- 若 nr_ok ∧ eq/dist_ok ∧ ¬drift.reject 则 pass,否则 hold/block。
- 异常
E_SCHEMA_MISMATCH,E_ENV_MISMATCH,E_NONDETERMINISM,E_POWER_INSUFFICIENT,E_RESOURCE_EXCEEDED。
VI. 计量流程与运行图
- Mx-55 基线锁定与差异分析
- 锁定 EnvLock 与签名;
- 生成 DiffCard 与影响面分类;
- 预置放量策略与回退触发。
- Mx-56 双跑与非退化评估
- 路由 shadow_pct 的实时或重放流量;
- 估计 delta_baseline、eq_rate/dist、power;
- 形成 RegressionReport 与 GateDecision_pre。
- Mx-57 金丝雀放量与漂移守门
- 依据 blast_frac(t) 递增曝光;
- 顺序检验消耗 alpha-spending 并监控 TS.*、delta_offon;
- 触发 rollback_controller 或升级通道。
- Mx-58 稳定化与 LTS 入档
冻结 baseline 更新、发布 CHANGELOG 与 AuditTrail;生成跨域报告(见第11章)以申请进入 LTS。
VII. 验证与测试矩阵
- 必测用例
- 非退化主指标:delta_baseline ≥ - tau_nonreg,power ≥ power_min;
- 双跑一致:eq_rate ≥ tau_eq 或 dist ≤ tau_dist;
- 漂移守门:p_value ≥ alpha_drift 或 impact(score) 可接受;
- 覆盖与突变:cov_spec ≥ tau_cov,kill_rate ≥ tau_kill(见第5章);
- 在线一致性:R_infer ≥ tau_R,delta_offon ≤ tau_offon_max(见第9章);
- SLO:TS.error ≤ tau_error,TS.latency ≤ tau_latency。
- 多重检验
对多指标门控采用 FDR ≤ q_star 或门控程序(见第7章);关键断言采用 FWER 控制。
VIII. 交叉引用与依赖
统计检验与功效(第7章),置信与风险预算(第8章),在线守门与回退(第9章),合规模板与审计轨(第10章),跨域等效与设备差异(第11章),发布与持续证伪(第12章)。IX. 风险、限制与开放问题
- 风险
基线陈旧导致“不回归但退化”假象;灰度样本偏置放大或缩小 eq_rate;未建模相关性的多重检验引入隐性回归。 - 限制
强非稳态业务下,shadow 与真实路径不可完全同分布;oracle 噪声增大使非退化检验效能下降。 - 开放问题
自适应 blast_frac(t) 与 alpha-spending 的联合优化;回归定位的最小解释集合搜索;跨设备量化噪声下的鲁棒 eq_rate 估计。
X. 交付件与版本管理
- 交付件
ChangeProposal.json,DiffCard,RegressionReport,RolloutPlan(含 blast_frac(t))、RollbackPlaybook,CoverageReport,GateLogs,CHANGELOG,AuditTrail 更新。 - 版本策略
MAJOR 需提供兼容矩阵与迁移剧本;MINOR 需完整 Mx-55 → Mx-57 证据;PATCH 至少通过非退化与 SLO 门。满足稳定期与跨域一致后方可进入 LTS。
版权与许可(CC BY 4.0)
版权声明:除另有说明外,《能量丝理论》(含文本、图表、插图、符号与公式)的著作权由作者(“屠广林”先生)享有。
许可方式:本作品采用 Creative Commons 署名 4.0 国际许可协议(CC BY 4.0)进行许可;在注明作者与来源的前提下,允许为商业或非商业目的进行复制、转载、节选、改编与再分发。
署名格式(建议):作者:“屠广林”;作品:《能量丝理论》;来源:energyfilament.org;许可证:CC BY 4.0。
首次发布: 2025-11-11|当前版本:v5.1
协议链接:https://creativecommons.org/licenses/by/4.0/