目录 / 文档-技术白皮书 / 15-EFT.WP.Methods.Falsification v1.0
I. 范围与目标
- 本章确立证伪(Falsification)在 EFT 方法学中的角色、边界与产出物,定义证伪等级与通过门,给出在线/离线一体化的守门策略与可审计要求。
- 读者对象:方法学与模型负责人、测试与红队工程师、合规与审计人员、运行与发布负责人。
- 产出物(最小集合):
- HypothesisRegistry(假设登记簿)
- AssertionSet(性质与断言集)
- MR.catalog(形变关系目录)
- AttackRecipe(对抗与变异配方)
- CoverageReport(覆盖与杀伤率报告)
- EvidencePack.sig(证据包与签名)
- GateDecision.log(守门决策与审计轨)
- 通过标准(Gate):
- 满足功效与覆盖:power >= 1 - beta_star,cov_spec >= tau_cov,kill_rate >= tau_kill
- 错误控制:alpha <= alpha_star,FDR <= q_star
- 运行安全:TS.error <= tau_error,TS.latency <= tau_lat
- 一致性:delta_offon <= tau_offon,R_infer >= 1 - tau_offon
II. 术语与符号
- 本章新增或重点符号
- H0(零假设),H1(备择)
- T(x)(检验统计量),p_value(p 值),C_alpha(拒绝域)
- alpha(一类错误),beta(二类错误),power = 1 - beta
- FDR,FWER,q_star(目标 FDR)
- MR_k(第 k 个形变关系),mut_i(第 i 个突变体)
- cov_spec = ( |C_hit| / |C_total| ),kill_rate = ( |mut_killed| / |mut_all| )
- epsilon_linf,epsilon_l2(对抗预算)
- GateDecision ∈ {pass, hold, block}
- delta_equiv(等效性阈值),effect_size
- delta_claim = ( score_claim - score_obs )
- EnvLock,anchor,hash(·),fingerprint
- 运行观测:TS.latency,TS.thrpt,TS.error
- 一致性:delta_offon = ( norm( y_hat_off - y_hat_on ) / norm( y_hat_off ) ),R_infer = 1 - delta_offon
- 冲突名与跨卷一致性
坚持 ts = alpha + beta * tau_mono 的时基对齐;T_fil 与 T_trans、n 与 n_eff 不得混用;公式、符号、定义使用英文与文本格式。
III. 公设与最小方程
- P51-1(可证伪性与可观测性公设)
任一断言 A 必映射到可观测量与可决策的拒绝域:存在 T(x) 与 C_alpha 使得 decision = [ T(x) ∈ C_alpha ] 可定义,且 alpha 可事先设定并审计。 - P51-2(断言可分解与可组合公设)
复合断言 A = ∧_k A_k 或 A = ∨_k A_k 可分解为原子断言集,复合检验须显式给出多重错误控制策略(FDR/FWER)。 - P51-3(时基与环境锁定公设)
在锁定环境 EnvLock 与对齐时基 ts = alpha + beta * tau_mono 下,顺序检验与守门决策的统计语义在离线重放与在线运行间保持等价。 - S52-1(基本检验与决策)
- 拒绝规则:reject H0 当且仅当 p_value <= alpha 或 T(x) ∈ C_alpha。
- 等效性检验(TOST):若 CI(effect_size) ⊆ [ -delta_equiv, +delta_equiv ],则接受等效。
- S52-2(Benjamini–Hochberg 程序)
设有 m 个检验,排序 p_(1) <= ... <= p_(m),取 k = max{ i : p_(i) <= ( i / m ) * q_star },则拒绝 p_(1..k),满足 FDR <= q_star。 - S52-3(样本量近似)
差异检验所需样本量近似:n_req ≈ ( ( z_{1-alpha} + z_{1-beta} )^2 * sigma^2 ) / delta^2,其中 delta 为最小可检测效应。 - S52-4(在线守门一体化)
守门函数:GateDecision = g( evidence, TS.*, policy );示例策略:- block 若 ( p_value <= alpha ) ∨ ( TS.error >= tau_error )
- hold 若 ( p_value > alpha ) ∧ ( power < 1 - beta_star )
- pass 若 上述均不满足且 cov_spec >= tau_cov ∧ kill_rate >= tau_kill
IV. 数据与清单口径
- 假设登记(HypothesisRegistry)字段(最小集)
id,statement,metric,alpha,beta,delta_equiv,family_id,FDR_policy,owner,expiry_ts。 - 断言与形变(AssertionSet,MR.catalog)
A_k.name,observable,T(x),C_alpha,MR_refs,severity,gate_link。 - 攻击与变异(AttackRecipe)
method,epsilon_linf/l2,steps,targeted,budget.cpu/gpu/mem,rng.family/seed。 - 追溯与签名
anchor,EnvLock,hash(artifacts),fingerprint(dataset),EvidencePack.sig。 - 日志与留存
GateDecision.log,CoverageReport,AttackReport,留存与访问策略按 policy.retention 执行。
V. 算法与实现绑定
- 接口与原型(I50-* 最小集)
- I50-1 define_hypothesis(spec:dict) -> Hypothesis
- I50-2 register_assertions(spec:dict) -> AssertionSet
- I50-3 generate_counterexamples(runtime:any, hypothesis:Hypothesis, ops:list, budget:dict) -> CEReport
- I50-5 adversarial_attack(runtime:any, x:any, method:str, eps:dict) -> AttackReport
- I50-6 sequential_test(stream:any, rule:dict) -> {decision:str, alpha_spent:float}
- I50-8 compute_coverage(logs:any) -> CoverageReport
- I50-9 gate_release(evidence:dict, policy:dict) -> GateDecision
- 幂等与异常
同一 anchor 与 EnvLock 下接口幂等;异常枚举:E_ORACLE_AMBIGUOUS,E_POWER_INSUFFICIENT,E_MULTITEST_UNCONTROLLED,E_ENV_MISMATCH,E_NONDETERMINISM。
VI. 计量流程与运行图
- Mx-51 预注册与审阅
建立 HypothesisRegistry → 设定 alpha/beta/q_star/delta_equiv → 审阅与签名。 - Mx-52 生成与执行
依据 MR.catalog 与 AttackRecipe 生成 mut_i 与对抗样本 → 执行断言与检验 → 收集 CoverageReport、AttackReport。 - Mx-53 顺序检验与守门
运行 sequential_test,跟踪 alpha_spent → 计算 p_value/power/FDR → 调用 gate_release 产出 GateDecision。 - Mx-54 归档与公告
打包 EvidencePack.sig → 写入 GateDecision.log → 发布可取证摘要与留存索引。
VII. 验证与测试矩阵
- 最小必测用例
- 空检验与类型 I 控制(alpha 验证)
- 功效校验(基于合成效应量的 power 曲线)
- MR_k 不变性与等效类覆盖(cov_spec)
- 突变体杀伤率(kill_rate)
- 在线一致性(delta_offon)与运行 SLO(TS.*)
- 边界与极端
epsilon_linf -> 0/large,steps -> 1/large,高并发与资源枯竭,时基漂移与重放偏差。 - 门限与通过门
alpha_star,beta_star,q_star,tau_cov,tau_kill,tau_error,tau_lat,tau_offon。
VIII. 交叉引用与依赖
- 《EFT.WP.Methods.Repro》第1、3章(术语与统计口径)
- 《EFT.WP.Methods.Inference》第6、7、10、12、13章(在线一致、校准、运行与发布、变更管理)
- 《Core.DataSpec》《Core.Metrology》《Core.Threads》《Core.Errors》(数据口径、计量、执行与错误体系)
IX. 风险、限制与开放问题
- Oracle 歧义与主观性风险;分布漂移下 alpha/beta 失配;流式多重检验的 FDR 稳健性;对抗迁移性导致的外推风险;资源预算与功效的权衡。
- 开放问题:自适应证伪策略的最优停规则;跨域 EnvLock 细粒度度量;证伪与校准的联合优化。
X. 交付件与版本管理
- 交付件清单
- HypothesisRegistry.json
- AssertionSet.yaml
- MR.catalog.yaml
- AttackRecipe.yaml
- CoverageReport.json
- AttackReport.json
- EvidencePack.sig.tar
- GateDecision.log
- CHANGELOG.md
- 版本与渠道
语义化版本与通道 canary/stable/LTS;变更影响评审与回归守门;所有产出绑定 anchor 与 hash(·) 并纳入 EnvLock。
版权与许可(CC BY 4.0)
版权声明:除另有说明外,《能量丝理论》(含文本、图表、插图、符号与公式)的著作权由作者(“屠广林”先生)享有。
许可方式:本作品采用 Creative Commons 署名 4.0 国际许可协议(CC BY 4.0)进行许可;在注明作者与来源的前提下,允许为商业或非商业目的进行复制、转载、节选、改编与再分发。
署名格式(建议):作者:“屠广林”;作品:《能量丝理论》;来源:energyfilament.org;许可证:CC BY 4.0。
首次发布: 2025-11-11|当前版本:v5.1
协议链接:https://creativecommons.org/licenses/by/4.0/