目录文档-技术白皮书15-EFT.WP.Methods.Falsification v1.0

第12章 验收与持续证伪发布


I. 范围与目标


II. 术语与符号

  1. 发布与证据
    • ReleasePlan,Evidence.bundle,AuditTrail,EnvLock,anchor,canon_json(·)。
    • 评分与置信:score_i,var_i,w_i,score_agg,se_agg,CI_agg = [L,U],risk_release = P( score_true < tau_accept | D )。
    • 门限与预算:tau_accept,tau_nonreg,q_star,alpha_release,beta_release,power_min,tau_cov,tau_kill。
  2. 非退化与一致性
    • delta_baseline = ( score_cand - score_base )(非劣检验),delta_offon,R_infer = 1 - delta_offon。
    • 覆盖与突变:cov_spec = ( |C_hit| / |C_total| ),kill_rate = ( |mut_killed| / |mut_all| )(见第5章)。
    • 在线指标:TS.latency,TS.thrpt,TS.error,GateDecision(见第9章)。
  3. 多重检验与顺序
    • FDR,FWER,TOST,alpha-spending(见第7章)。
    • 站点与设备:site_id,device_id,跨域差异 delta_dev(见第11章)。

III. 公设与最小方程


IV. 数据与清单口径

  1. 预注册项(进入 ReleasePlan)
    H0/H1、指标定义与单位、主要门 tau_accept、非退化边界 tau_nonreg、多重检验策略(q_star)、样本量与功效目标 power_min、alpha_release/beta_release、canary 比例与回退策略、EnvLock、rng.seed/rng_family。
  2. 证据与追溯
    • Evidence.bundle = {SpecCard, DataCard, SiteCard/DeviceCard, CoverageReport, CEReport, AttackReport, MetaAnalysisReport, GateLogs, Signatures};
    • 关键哈希:Graph.sig,ParamCard.sig,InferPipelineCard.sig,golden_set_hash,adv_set_hash(epsilon);
    • 时间轴对齐:ts = alpha + beta * tau_mono 记录在 AuditTrail。
  3. 隐私与合规
    所有样本以 fingerprint 与 hash(·) 追溯,敏感字段脱敏并记录 policy_id。

V. 算法与实现绑定

  1. 原型新增(承接第6章与附录B)
    • I50-51 compute_release_score(reports:list, weights:dict, alpha:float) -> {score_agg:float, CI_agg:tuple}
    • I50-52 noninferiority_guard(base:any, cand:any, tau_nonreg:float) -> {delta_baseline:float, decision:str}
    • I50-53 fdr_gate(assertions:list, q_star:float) -> {FDR:float, R:set}
    • I50-54 alpha_spend_scheduler(rule:dict) -> {alpha_spent:float, proceed:bool}
    • I50-55 release_risk_posterior(scores:any, prior:any, tau_accept:float) -> {risk_release:float}
    • I50-56 build_evidence_bundle(plan:dict, artifacts:list) -> Evidence.bundle
    • I50-57 publish_announcement(evidence:Evidence.bundle, channel:str) -> Ack
    • I50-58 schedule_continuous_fals(stream:any, probes:list) -> JobId
  2. 契约与异常
    E_POWER_INSUFFICIENT(未达 power_min),E_MULTITEST_UNCONTROLLED(未控 FDR/FWER),E_ENV_MISMATCH(EnvLock 不一致),E_NONDETERMINISM,E_RESOURCE_EXCEEDED,E_ORACLE_AMBIGUOUS。

VI. 计量流程与运行图(Mx-51 → Mx-54)

  1. Mx-51 预注册与冻结
    • 登记 ReleasePlan 与门限、样本量、alpha_release/beta_release;
    • 锁定 EnvLock 与工件签名;
    • 生成 SpecCard/DataCard,发布预注册摘要。
  2. Mx-52 离线证伪评估
    • 运行覆盖与突变:产出 cov_spec、kill_rate 与 CEReport/AttackReport(见第5章、第6章);
    • 以 I50-51 合成 score_agg 与 CI_agg;
    • 以 I50-52 验证 delta_baseline 非劣;
    • 以 I50-53 控制 FDR 并生成断言通过集;
    • 形成离线 GateDecision_pre ∈ {pass, hold, block}。
  3. Mx-53 金丝雀发布与顺序守门
    • 在 canary 通道以 alpha-spending 进行在线评估,持续计算 risk_release 与 delta_offon;
    • 若 alpha_spent ≤ alpha_release 且 risk_release ≤ beta_release 且 R_infer ≥ tau_R,则升级到 stable;否则保持 hold 或回退。
  4. Mx-54 公告与归档
    以 I50-56 汇编 Evidence.bundle 并签名,I50-57 发布公告包(包含门限、区间与追溯信息),将全部材料与 GateLogs 入 AuditTrail;创建 I50-58 的持续证伪任务。

VII. 验证与测试矩阵

  1. 最小必测集合
    • 主指标非退化:检验 delta_baseline ≥ - tau_nonreg,功效 power ≥ power_min。
    • 覆盖与突变:cov_spec ≥ tau_cov,kill_rate ≥ tau_kill。
    • 多重检验:在关键断言上 FDR ≤ q_star。
    • 置信门:L ≥ tau_accept(CI_agg 下界)。
    • 在线一致性:R_infer ≥ tau_R,delta_offon ≤ tau_offon。
    • 实时 SLO:TS.latency/TS.error 不超界,见第9章。
  2. 取样与效能
    样本量遵循第7章功效计算;金丝雀期最短观测窗由 alpha-spending 与 beta_release 联合决定。

VIII. 交叉引用与依赖

统计检验与错误控制见第7章;不确定性传播与风险度量见第8章;在线守门与回退见第9章;合规模板与审计轨字段见第10章;跨域一致性与 delta_dev 见第11章;回归防御与通道策略见第13章。

IX. 风险、限制与开放问题


X. 交付件与版本管理


版权与许可(CC BY 4.0)

版权声明:除另有说明外,《能量丝理论》(含文本、图表、插图、符号与公式)的著作权由作者(“屠广林”先生)享有。
许可方式:本作品采用 Creative Commons 署名 4.0 国际许可协议(CC BY 4.0)进行许可;在注明作者与来源的前提下,允许为商业或非商业目的进行复制、转载、节选、改编与再分发。
署名格式(建议):作者:“屠广林”;作品:《能量丝理论》;来源:energyfilament.org;许可证:CC BY 4.0。

首次发布: 2025-11-11|当前版本:v5.1
协议链接:https://creativecommons.org/licenses/by/4.0/