15-EFT.WP.Methods.Falsification v1.0 | 第1章定位、范围与证伪范式

目录／文档-技术白皮书（V5.05）／ 15-EFT.WP.Methods.Falsification v1.0

第1章定位、范围与证伪范式

I. 范围与目标

本章确立证伪（Falsification）在 EFT 方法学中的角色、边界与产出物，定义证伪等级与通过门，给出在线/离线一体化的守门策略与可审计要求。
读者对象：方法学与模型负责人、测试与红队工程师、合规与审计人员、运行与发布负责人。
产出物（最小集合）：
- HypothesisRegistry（假设登记簿）
- AssertionSet（性质与断言集）
- MR.catalog（形变关系目录）
- AttackRecipe（对抗与变异配方）
- CoverageReport（覆盖与杀伤率报告）
- EvidencePack.sig（证据包与签名）
- GateDecision.log（守门决策与审计轨）
通过标准（Gate）：
- 满足功效与覆盖：power >= 1 - beta_star，cov_spec >= tau_cov，kill_rate >= tau_kill
- 错误控制：alpha <= alpha_star，FDR <= q_star
- 运行安全：TS.error <= tau_error，TS.latency <= tau_lat
- 一致性：delta_offon <= tau_offon，R_infer >= 1 - tau_offon

II. 术语与符号

本章新增或重点符号
- H0（零假设），H1（备择）
- T(x)（检验统计量），p_value（p 值），C_alpha（拒绝域）
- alpha（一类错误），beta（二类错误），power = 1 - beta
- FDR，FWER，q_star（目标 FDR）
- MR_k（第 k 个形变关系），mut_i（第 i 个突变体）
- cov_spec = ( |C_hit| / |C_total| )，kill_rate = ( |mut_killed| / |mut_all| )
- epsilon_linf，epsilon_l2（对抗预算）
- GateDecision ∈ {pass, hold, block}
- delta_equiv（等效性阈值），effect_size
- delta_claim = ( score_claim - score_obs )
- EnvLock，anchor，hash(·)，fingerprint
- 运行观测：TS.latency，TS.thrpt，TS.error
- 一致性：delta_offon = ( norm( y_hat_off - y_hat_on ) / norm( y_hat_off ) )，R_infer = 1 - delta_offon
冲突名与跨卷一致性
坚持 ts = alpha + beta * tau_mono 的时基对齐；T_fil 与 T_trans、n 与 n_eff 不得混用；公式、符号、定义使用英文与文本格式。

III. 公设与最小方程

P51-1（可证伪性与可观测性公设）
任一断言 A 必映射到可观测量与可决策的拒绝域：存在 T(x) 与 C_alpha 使得 decision = [ T(x) ∈ C_alpha ] 可定义，且 alpha 可事先设定并审计。
P51-2（断言可分解与可组合公设）
复合断言 A = ∧_k A_k 或 A = ∨_k A_k 可分解为原子断言集，复合检验须显式给出多重错误控制策略（FDR/FWER）。
P51-3（时基与环境锁定公设）
在锁定环境 EnvLock 与对齐时基 ts = alpha + beta * tau_mono 下，顺序检验与守门决策的统计语义在离线重放与在线运行间保持等价。
S52-1（基本检验与决策）
- 拒绝规则：reject H0 当且仅当 p_value <= alpha 或 T(x) ∈ C_alpha。
- 等效性检验（TOST）：若 CI(effect_size) ⊆ [ -delta_equiv, +delta_equiv ]，则接受等效。
S52-2（Benjamini–Hochberg 程序）
设有 m 个检验，排序 p_(1) <= ... <= p_(m)，取 k = max{ i : p_(i) <= ( i / m ) * q_star }，则拒绝 p_(1..k)，满足 FDR <= q_star。
S52-3（样本量近似）
差异检验所需样本量近似：n_req ≈ ( ( z_{1-alpha} + z_{1-beta} )^2 * sigma^2 ) / delta^2，其中 delta 为最小可检测效应。
S52-4（在线守门一体化）
守门函数：GateDecision = g( evidence, TS.*, policy )；示例策略：
- block 若 ( p_value <= alpha ) ∨ ( TS.error >= tau_error )
- hold 若 ( p_value > alpha ) ∧ ( power < 1 - beta_star )
- pass 若上述均不满足且 cov_spec >= tau_cov ∧ kill_rate >= tau_kill

IV. 数据与清单口径

假设登记（HypothesisRegistry）字段（最小集）
id，statement，metric，alpha，beta，delta_equiv，family_id，FDR_policy，owner，expiry_ts。
断言与形变（AssertionSet，MR.catalog）
A_k.name，observable，T(x)，C_alpha，MR_refs，severity，gate_link。
攻击与变异（AttackRecipe）
method，epsilon_linf/l2，steps，targeted，budget.cpu/gpu/mem，rng.family/seed。
追溯与签名
anchor，EnvLock，hash(artifacts)，fingerprint(dataset)，EvidencePack.sig。
日志与留存
GateDecision.log，CoverageReport，AttackReport，留存与访问策略按 policy.retention 执行。

V. 算法与实现绑定

接口与原型（I50-* 最小集）
- I50-1 define_hypothesis(spec:dict) -> Hypothesis
- I50-2 register_assertions(spec:dict) -> AssertionSet
- I50-3 generate_counterexamples(runtime:any, hypothesis:Hypothesis, ops:list, budget:dict) -> CEReport
- I50-5 adversarial_attack(runtime:any, x:any, method:str, eps:dict) -> AttackReport
- I50-6 sequential_test(stream:any, rule:dict) -> {decision:str, alpha_spent:float}
- I50-8 compute_coverage(logs:any) -> CoverageReport
- I50-9 gate_release(evidence:dict, policy:dict) -> GateDecision
幂等与异常
同一 anchor 与 EnvLock 下接口幂等；异常枚举：E_ORACLE_AMBIGUOUS，E_POWER_INSUFFICIENT，E_MULTITEST_UNCONTROLLED，E_ENV_MISMATCH，E_NONDETERMINISM。

VI. 计量流程与运行图

Mx-51 预注册与审阅
建立 HypothesisRegistry → 设定 alpha/beta/q_star/delta_equiv → 审阅与签名。
Mx-52 生成与执行
依据 MR.catalog 与 AttackRecipe 生成 mut_i 与对抗样本 → 执行断言与检验 → 收集 CoverageReport、AttackReport。
Mx-53 顺序检验与守门
运行 sequential_test，跟踪 alpha_spent → 计算 p_value/power/FDR → 调用 gate_release 产出 GateDecision。
Mx-54 归档与公告
打包 EvidencePack.sig → 写入 GateDecision.log → 发布可取证摘要与留存索引。

VII. 验证与测试矩阵

最小必测用例
- 空检验与类型 I 控制（alpha 验证）
- 功效校验（基于合成效应量的 power 曲线）
- MR_k 不变性与等效类覆盖（cov_spec）
- 突变体杀伤率（kill_rate）
- 在线一致性（delta_offon）与运行 SLO（TS.*）
边界与极端
epsilon_linf -> 0/large，steps -> 1/large，高并发与资源枯竭，时基漂移与重放偏差。
门限与通过门
alpha_star，beta_star，q_star，tau_cov，tau_kill，tau_error，tau_lat，tau_offon。

VIII. 交叉引用与依赖

《EFT.WP.Methods.Repro》第1、3章（术语与统计口径）
《EFT.WP.Methods.Inference》第6、7、10、12、13章（在线一致、校准、运行与发布、变更管理）
《Core.DataSpec》《Core.Metrology》《Core.Threads》《Core.Errors》（数据口径、计量、执行与错误体系）

IX. 风险、限制与开放问题

Oracle 歧义与主观性风险；分布漂移下 alpha/beta 失配；流式多重检验的 FDR 稳健性；对抗迁移性导致的外推风险；资源预算与功效的权衡。
开放问题：自适应证伪策略的最优停规则；跨域 EnvLock 细粒度度量；证伪与校准的联合优化。

X. 交付件与版本管理

交付件清单
- HypothesisRegistry.json
- AssertionSet.yaml
- MR.catalog.yaml
- AttackRecipe.yaml
- CoverageReport.json
- AttackReport.json
- EvidencePack.sig.tar
- GateDecision.log
- CHANGELOG.md
版本与渠道
语义化版本与通道 canary/stable/LTS；变更影响评审与回归守门；所有产出绑定 anchor 与 hash(·) 并纳入 EnvLock。

版权与许可：除另有说明外，《能量丝理论》（含文本、图表、插图、符号与公式）的著作权由作者（屠广林）享有。
许可方式（CC BY 4.0）：在注明作者与来源的前提下，允许复制、转载、节选、改编与再分发。
署名格式（建议）：作者：屠广林｜作品：《能量丝理论》｜来源：energyfilament.org｜许可证：CC BY 4.0
验证召集： 作者独立自费、无雇主无资助；下一阶段将优先在最愿意公开讨论、公开复现、公开挑错的环境中推进落地，不限国家。欢迎各国媒体与同行抓住窗口组织验证，并与我们联系。
版本信息： 首次发布：2025-11-11 ｜当前版本：v6.0+5.05