目录 / 文档-技术白皮书 / 15-EFT.WP.Methods.Falsification v1.0
I. 范围与目标
- 本章定义离线至在线的一体化验收工作流、评分合成与置信区间口径、发布门控与滚动证伪循环,以及公告包与第三方复核的合规模板。适用对象涵盖算法与参数、数据与口径、推理流水线与运行环境 EnvLock 的全链路变更。
- 目标:在 alpha_release、beta_release 与 q_star 控制下,使 GateDecision ∈ {pass, hold, block} 的形成可复核、可追溯、可取证,并能在 canary → stable → LTS 的通道上持续运行证伪循环。
II. 术语与符号
- 发布与证据
- ReleasePlan,Evidence.bundle,AuditTrail,EnvLock,anchor,canon_json(·)。
- 评分与置信:score_i,var_i,w_i,score_agg,se_agg,CI_agg = [L,U],risk_release = P( score_true < tau_accept | D )。
- 门限与预算:tau_accept,tau_nonreg,q_star,alpha_release,beta_release,power_min,tau_cov,tau_kill。
- 非退化与一致性
- delta_baseline = ( score_cand - score_base )(非劣检验),delta_offon,R_infer = 1 - delta_offon。
- 覆盖与突变:cov_spec = ( |C_hit| / |C_total| ),kill_rate = ( |mut_killed| / |mut_all| )(见第5章)。
- 在线指标:TS.latency,TS.thrpt,TS.error,GateDecision(见第9章)。
- 多重检验与顺序
- FDR,FWER,TOST,alpha-spending(见第7章)。
- 站点与设备:site_id,device_id,跨域差异 delta_dev(见第11章)。
III. 公设与最小方程
- P51-31(验收可证伪公设)
对任一候选版本与锁定 EnvLock,存在可观察指标向量 score_vec 与门限向量 tau_vec,若任一分量违反 score_k ≥ tau_k 的断言,则版本被证伪而拒绝发布。 - S52-61(多源评分合成与区间)
设评估来源 i = 1..m,权重 w_i > 0,score_agg = ( Σ w_i * score_i ) / ( Σ w_i );
se_agg = sqrt( Σ ( w_i^2 * var_i ) ) / ( Σ w_i );
CI_agg = [ score_agg - z_{1 - alpha/2} * se_agg , score_agg + z_{1 - alpha/2} * se_agg ]。
通过门:L ≥ tau_accept。 - S52-62(非退化门)
以非劣检验断言 delta_baseline ≥ - tau_nonreg;若拒绝域包含 delta_baseline < - tau_nonreg,则触发 block。 - S52-63(FDR 控制下的复合门)
对多断言集合 A = {A_k},以 q_star 控制 FDR,在拒绝集合 R 上发布条件为 FDR ≤ q_star 且 ∀k ∈ critical: A_k 通过。 - S52-64(顺序门与风险预算)
在线阶段使用 alpha-spending:alpha_spent(t) = Σ_{k=1..t} g(k),其中 Σ g(k) ≤ alpha_release;
发布风险约束:risk_release ≤ beta_release。 - S52-65(一致性与回归双门)
一致性门:R_infer ≥ tau_R;回归门:delta_offon ≤ tau_offon;若任一超界,则仅允许 hold 并进入加测。
IV. 数据与清单口径
- 预注册项(进入 ReleasePlan)
H0/H1、指标定义与单位、主要门 tau_accept、非退化边界 tau_nonreg、多重检验策略(q_star)、样本量与功效目标 power_min、alpha_release/beta_release、canary 比例与回退策略、EnvLock、rng.seed/rng_family。 - 证据与追溯
- Evidence.bundle = {SpecCard, DataCard, SiteCard/DeviceCard, CoverageReport, CEReport, AttackReport, MetaAnalysisReport, GateLogs, Signatures};
- 关键哈希:Graph.sig,ParamCard.sig,InferPipelineCard.sig,golden_set_hash,adv_set_hash(epsilon);
- 时间轴对齐:ts = alpha + beta * tau_mono 记录在 AuditTrail。
- 隐私与合规
所有样本以 fingerprint 与 hash(·) 追溯,敏感字段脱敏并记录 policy_id。
V. 算法与实现绑定
- 原型新增(承接第6章与附录B)
- I50-51 compute_release_score(reports:list, weights:dict, alpha:float) -> {score_agg:float, CI_agg:tuple}
- I50-52 noninferiority_guard(base:any, cand:any, tau_nonreg:float) -> {delta_baseline:float, decision:str}
- I50-53 fdr_gate(assertions:list, q_star:float) -> {FDR:float, R:set}
- I50-54 alpha_spend_scheduler(rule:dict) -> {alpha_spent:float, proceed:bool}
- I50-55 release_risk_posterior(scores:any, prior:any, tau_accept:float) -> {risk_release:float}
- I50-56 build_evidence_bundle(plan:dict, artifacts:list) -> Evidence.bundle
- I50-57 publish_announcement(evidence:Evidence.bundle, channel:str) -> Ack
- I50-58 schedule_continuous_fals(stream:any, probes:list) -> JobId
- 契约与异常
E_POWER_INSUFFICIENT(未达 power_min),E_MULTITEST_UNCONTROLLED(未控 FDR/FWER),E_ENV_MISMATCH(EnvLock 不一致),E_NONDETERMINISM,E_RESOURCE_EXCEEDED,E_ORACLE_AMBIGUOUS。
VI. 计量流程与运行图(Mx-51 → Mx-54)
- Mx-51 预注册与冻结
- 登记 ReleasePlan 与门限、样本量、alpha_release/beta_release;
- 锁定 EnvLock 与工件签名;
- 生成 SpecCard/DataCard,发布预注册摘要。
- Mx-52 离线证伪评估
- 运行覆盖与突变:产出 cov_spec、kill_rate 与 CEReport/AttackReport(见第5章、第6章);
- 以 I50-51 合成 score_agg 与 CI_agg;
- 以 I50-52 验证 delta_baseline 非劣;
- 以 I50-53 控制 FDR 并生成断言通过集;
- 形成离线 GateDecision_pre ∈ {pass, hold, block}。
- Mx-53 金丝雀发布与顺序守门
- 在 canary 通道以 alpha-spending 进行在线评估,持续计算 risk_release 与 delta_offon;
- 若 alpha_spent ≤ alpha_release 且 risk_release ≤ beta_release 且 R_infer ≥ tau_R,则升级到 stable;否则保持 hold 或回退。
- Mx-54 公告与归档
以 I50-56 汇编 Evidence.bundle 并签名,I50-57 发布公告包(包含门限、区间与追溯信息),将全部材料与 GateLogs 入 AuditTrail;创建 I50-58 的持续证伪任务。
VII. 验证与测试矩阵
- 最小必测集合
- 主指标非退化:检验 delta_baseline ≥ - tau_nonreg,功效 power ≥ power_min。
- 覆盖与突变:cov_spec ≥ tau_cov,kill_rate ≥ tau_kill。
- 多重检验:在关键断言上 FDR ≤ q_star。
- 置信门:L ≥ tau_accept(CI_agg 下界)。
- 在线一致性:R_infer ≥ tau_R,delta_offon ≤ tau_offon。
- 实时 SLO:TS.latency/TS.error 不超界,见第9章。
- 取样与效能
样本量遵循第7章功效计算;金丝雀期最短观测窗由 alpha-spending 与 beta_release 联合决定。
VIII. 交叉引用与依赖
统计检验与错误控制见第7章;不确定性传播与风险度量见第8章;在线守门与回退见第9章;合规模板与审计轨字段见第10章;跨域一致性与 delta_dev 见第11章;回归防御与通道策略见第13章。IX. 风险、限制与开放问题
- 风险
离线数据与在线分布偏移造成 risk_release 低估;金丝雀样本异质性引发 alpha-spending 过快消耗;多重检验依赖关系未被充分建模导致 FDR 偏差。 - 限制
当 oracle 含糊或标注方差过大时,CI_agg 与非劣检验的效能下降;在强相关断言下的 FDR 估计需更保守程序。 - 开放问题
自适应门限 tau_accept(t) 与动态 q_star 的联合优化;面向跨设备流量比例变动的在线贝叶斯风险预算。
X. 交付件与版本管理
- 交付件
ReleasePlan.json,CoverageReport,CEReport/AttackReport,OfflineGateSummary(含 score_agg/CI_agg/FDR),CanaryGateSummary(含 alpha_spent/risk_release/delta_offon),Evidence.bundle 与签名,AuditTrail 更新记录,Announcement.md。 - 版本策略
满足 Mx-52 但未通过 Mx-53:标记 hold 与 patch 修复循环;完整通过 Mx-51 → Mx-54:发布至 stable 并启动持续证伪任务;进入 LTS 需附加长期稳定性证据与跨域等效报告(见第11章)。
版权与许可(CC BY 4.0)
版权声明:除另有说明外,《能量丝理论》(含文本、图表、插图、符号与公式)的著作权由作者(“屠广林”先生)享有。
许可方式:本作品采用 Creative Commons 署名 4.0 国际许可协议(CC BY 4.0)进行许可;在注明作者与来源的前提下,允许为商业或非商业目的进行复制、转载、节选、改编与再分发。
署名格式(建议):作者:“屠广林”;作品:《能量丝理论》;来源:energyfilament.org;许可证:CC BY 4.0。
首次发布: 2025-11-11|当前版本:v5.1
协议链接:https://creativecommons.org/licenses/by/4.0/