15-EFT.WP.Methods.Falsification v1.0 | 第12章验收与持续证伪发布

目录／文档-技术白皮书（V5.05）／ 15-EFT.WP.Methods.Falsification v1.0

第12章验收与持续证伪发布

I. 范围与目标

本章定义离线至在线的一体化验收工作流、评分合成与置信区间口径、发布门控与滚动证伪循环，以及公告包与第三方复核的合规模板。适用对象涵盖算法与参数、数据与口径、推理流水线与运行环境 EnvLock 的全链路变更。
目标：在 alpha_release、beta_release 与 q_star 控制下，使 GateDecision ∈ {pass, hold, block} 的形成可复核、可追溯、可取证，并能在 canary → stable → LTS 的通道上持续运行证伪循环。

II. 术语与符号

发布与证据
- ReleasePlan，Evidence.bundle，AuditTrail，EnvLock，anchor，canon_json(·)。
- 评分与置信：score_i，var_i，w_i，score_agg，se_agg，CI_agg = [L,U]，risk_release = P( score_true < tau_accept | D )。
- 门限与预算：tau_accept，tau_nonreg，q_star，alpha_release，beta_release，power_min，tau_cov，tau_kill。
非退化与一致性
- delta_baseline = ( score_cand - score_base )（非劣检验），delta_offon，R_infer = 1 - delta_offon。
- 覆盖与突变：cov_spec = ( |C_hit| / |C_total| )，kill_rate = ( |mut_killed| / |mut_all| )（见第5章）。
- 在线指标：TS.latency，TS.thrpt，TS.error，GateDecision（见第9章）。
多重检验与顺序
- FDR，FWER，TOST，alpha-spending（见第7章）。
- 站点与设备：site_id，device_id，跨域差异 delta_dev（见第11章）。

III. 公设与最小方程

P51-31（验收可证伪公设）
对任一候选版本与锁定 EnvLock，存在可观察指标向量 score_vec 与门限向量 tau_vec，若任一分量违反 score_k ≥ tau_k 的断言，则版本被证伪而拒绝发布。
S52-61（多源评分合成与区间）
设评估来源 i = 1..m，权重 w_i > 0，score_agg = ( Σ w_i * score_i ) / ( Σ w_i )；
se_agg = sqrt( Σ ( w_i^2 * var_i ) ) / ( Σ w_i )；
CI_agg = [ score_agg - z_{1 - alpha/2} * se_agg , score_agg + z_{1 - alpha/2} * se_agg ]。
通过门：L ≥ tau_accept。
S52-62（非退化门）
以非劣检验断言 delta_baseline ≥ - tau_nonreg；若拒绝域包含 delta_baseline < - tau_nonreg，则触发 block。
S52-63（FDR 控制下的复合门）
对多断言集合 A = {A_k}，以 q_star 控制 FDR，在拒绝集合 R 上发布条件为 FDR ≤ q_star 且 ∀k ∈ critical: A_k 通过。
S52-64（顺序门与风险预算）
在线阶段使用 alpha-spending：alpha_spent(t) = Σ_{k=1..t} g(k)，其中 Σ g(k) ≤ alpha_release；
发布风险约束：risk_release ≤ beta_release。
S52-65（一致性与回归双门）
一致性门：R_infer ≥ tau_R；回归门：delta_offon ≤ tau_offon；若任一超界，则仅允许 hold 并进入加测。

IV. 数据与清单口径

预注册项（进入 ReleasePlan）
H0/H1、指标定义与单位、主要门 tau_accept、非退化边界 tau_nonreg、多重检验策略（q_star）、样本量与功效目标 power_min、alpha_release/beta_release、canary 比例与回退策略、EnvLock、rng.seed/rng_family。
证据与追溯
- Evidence.bundle = {SpecCard, DataCard, SiteCard/DeviceCard, CoverageReport, CEReport, AttackReport, MetaAnalysisReport, GateLogs, Signatures}；
- 关键哈希：Graph.sig，ParamCard.sig，InferPipelineCard.sig，golden_set_hash，adv_set_hash(epsilon)；
- 时间轴对齐：ts = alpha + beta * tau_mono 记录在 AuditTrail。
隐私与合规
所有样本以 fingerprint 与 hash(·) 追溯，敏感字段脱敏并记录 policy_id。

V. 算法与实现绑定

原型新增（承接第6章与附录B）
- I50-51 compute_release_score(reports:list, weights:dict, alpha:float) -> {score_agg:float, CI_agg:tuple}
- I50-52 noninferiority_guard(base:any, cand:any, tau_nonreg:float) -> {delta_baseline:float, decision:str}
- I50-53 fdr_gate(assertions:list, q_star:float) -> {FDR:float, R:set}
- I50-54 alpha_spend_scheduler(rule:dict) -> {alpha_spent:float, proceed:bool}
- I50-55 release_risk_posterior(scores:any, prior:any, tau_accept:float) -> {risk_release:float}
- I50-56 build_evidence_bundle(plan:dict, artifacts:list) -> Evidence.bundle
- I50-57 publish_announcement(evidence:Evidence.bundle, channel:str) -> Ack
- I50-58 schedule_continuous_fals(stream:any, probes:list) -> JobId
契约与异常
E_POWER_INSUFFICIENT（未达 power_min），E_MULTITEST_UNCONTROLLED（未控 FDR/FWER），E_ENV_MISMATCH（EnvLock 不一致），E_NONDETERMINISM，E_RESOURCE_EXCEEDED，E_ORACLE_AMBIGUOUS。

VI. 计量流程与运行图（Mx-51 → Mx-54）

Mx-51 预注册与冻结
- 登记 ReleasePlan 与门限、样本量、alpha_release/beta_release；
- 锁定 EnvLock 与工件签名；
- 生成 SpecCard/DataCard，发布预注册摘要。
Mx-52 离线证伪评估
- 运行覆盖与突变：产出 cov_spec、kill_rate 与 CEReport/AttackReport（见第5章、第6章）；
- 以 I50-51 合成 score_agg 与 CI_agg；
- 以 I50-52 验证 delta_baseline 非劣；
- 以 I50-53 控制 FDR 并生成断言通过集；
- 形成离线 GateDecision_pre ∈ {pass, hold, block}。
Mx-53 金丝雀发布与顺序守门
- 在 canary 通道以 alpha-spending 进行在线评估，持续计算 risk_release 与 delta_offon；
- 若 alpha_spent ≤ alpha_release 且 risk_release ≤ beta_release 且 R_infer ≥ tau_R，则升级到 stable；否则保持 hold 或回退。
Mx-54 公告与归档
以 I50-56 汇编 Evidence.bundle 并签名，I50-57 发布公告包（包含门限、区间与追溯信息），将全部材料与 GateLogs 入 AuditTrail；创建 I50-58 的持续证伪任务。

VII. 验证与测试矩阵

最小必测集合
- 主指标非退化：检验 delta_baseline ≥ - tau_nonreg，功效 power ≥ power_min。
- 覆盖与突变：cov_spec ≥ tau_cov，kill_rate ≥ tau_kill。
- 多重检验：在关键断言上 FDR ≤ q_star。
- 置信门：L ≥ tau_accept（CI_agg 下界）。
- 在线一致性：R_infer ≥ tau_R，delta_offon ≤ tau_offon。
- 实时 SLO：TS.latency/TS.error 不超界，见第9章。
取样与效能
样本量遵循第7章功效计算；金丝雀期最短观测窗由 alpha-spending 与 beta_release 联合决定。

VIII. 交叉引用与依赖

统计检验与错误控制见第7章；不确定性传播与风险度量见第8章；在线守门与回退见第9章；合规模板与审计轨字段见第10章；跨域一致性与 delta_dev 见第11章；回归防御与通道策略见第13章。

IX. 风险、限制与开放问题

风险
离线数据与在线分布偏移造成 risk_release 低估；金丝雀样本异质性引发 alpha-spending 过快消耗；多重检验依赖关系未被充分建模导致 FDR 偏差。
限制
当 oracle 含糊或标注方差过大时，CI_agg 与非劣检验的效能下降；在强相关断言下的 FDR 估计需更保守程序。
开放问题
自适应门限 tau_accept(t) 与动态 q_star 的联合优化；面向跨设备流量比例变动的在线贝叶斯风险预算。

X. 交付件与版本管理

交付件
ReleasePlan.json，CoverageReport，CEReport/AttackReport，OfflineGateSummary（含 score_agg/CI_agg/FDR），CanaryGateSummary（含 alpha_spent/risk_release/delta_offon），Evidence.bundle 与签名，AuditTrail 更新记录，Announcement.md。
版本策略
满足 Mx-52 但未通过 Mx-53：标记 hold 与 patch 修复循环；完整通过 Mx-51 → Mx-54：发布至 stable 并启动持续证伪任务；进入 LTS 需附加长期稳定性证据与跨域等效报告（见第11章）。

版权与许可：除另有说明外，《能量丝理论》（含文本、图表、插图、符号与公式）的著作权由作者（屠广林）享有。
许可方式（CC BY 4.0）：在注明作者与来源的前提下，允许复制、转载、节选、改编与再分发。
署名格式（建议）：作者：屠广林｜作品：《能量丝理论》｜来源：energyfilament.org｜许可证：CC BY 4.0
验证召集： 作者独立自费、无雇主无资助；下一阶段将优先在最愿意公开讨论、公开复现、公开挑错的环境中推进落地，不限国家。欢迎各国媒体与同行抓住窗口组织验证，并与我们联系。
版本信息： 首次发布：2025-11-11 ｜当前版本：v6.0+5.05