15-EFT.WP.Methods.Falsification v1.0 | 第3章证伪原理与公设 | 能量丝理论

第3章证伪原理与公设

I. 范围与目标

本章确立证伪的理论基线与操作公设，定义最小方程族 S52-*（功效分析、错误控制、顺序检验、等效性）与对应的可执行准则，确保在锁定环境 EnvLock 下，证伪决策以可观测量为依据、以可复现为约束、以合规为目标。
通过标准：
任一断言 A 可映射为检验三元组 <T(x), C_alpha, decision_rule>；给定 alpha/beta/delta_equiv/q_star，可计算样本量或门限；多重检验的 FDR 控制或顺序检验的错误开销被明确并验证。

II. 术语与符号

假设与检验：H0，H1，T(x)，C_alpha，alpha，beta，power = 1 - beta，p_value，effect_size，delta_equiv。
多重检验：m（检验数），R（拒绝数），V（误拒绝数），FDR = E[ ( V / max(R,1) ) ]，FWER，q_star（目标 FDR）。
顺序检验与流：SPRT，LLR_n = Σ_{i=1..n} log( p1(x_i) / p0(x_i) )，A，B。
时基与环境：tau_mono，ts，ts = alpha + beta * tau_mono（映射参数同名但语义为时间线性映射），EnvLock，anchor，rng.seed，rng_family。
运行与守门：TS.latency，TS.error，GateDecision ∈ {pass, hold, block}，ECE/MCE/NLL，delta_offon，R_infer = 1 - delta_offon。

III. 公设与最小方程

P51-1（可证伪性与可观测性公设）
任何主张须存在可测统计量 T(x) 与在 H0 下可界定的拒绝域 C_alpha，使 decision = [ T(x) ∈ C_alpha ] 的一类错误不超过 alpha，且 T(x) 的观测不改变其在 H0/H1 下的分布。
P51-2（断言可分解与可组合公设）
复合断言 A = ⋀_k A_k 或 A = ⋁_k A_k 可分解为子检验族 {T_k(x), C_{alpha_k}}；当采用门控或层级程序时，总体错误控制满足指定上界（如 FDR ≤ q_star 或 FWER ≤ alpha）。
P51-3（预注册与环境锁定公设）
检验在执行前须预注册 <metric, alpha, beta, delta_equiv, q_star, stopping_rule>，并绑定 EnvLock；在同一 EnvLock 与同一 anchor 下重复试验的判决分布保持不变。
S52-1（功效与样本量最小方程）
- 定义功效 power = P_{H1}( T(X) ∈ C_alpha ) = 1 - beta。
- 正态均值差场景（方差已知、双侧）样本量近似：n = ( ( z_{1-alpha/2} + z_{1-beta} )^2 * sigma^2 ) / delta^2，其中 delta 为 effect_size，sigma 为标准差。
S52-2（Benjamini–Hochberg FDR 控制）
给定 m 个 p_value 的升序序列 p_(1) ≤ ... ≤ p_(m)，取 k = max{ i : p_(i) ≤ ( i / m ) * q_star }，则拒绝前 k 个假设，满足 FDR ≤ q_star（独立或 PRDS 条件下）。
S52-3（顺序概率比检验 SPRT）
- 设 LLR_n = Σ_{i=1..n} log( p1(x_i) / p0(x_i) )，阈值 A = ( 1 - beta ) / alpha，B = beta / ( 1 - alpha )。
- 规则：若 LLR_n ≥ log(A) 则拒绝 H0；若 LLR_n ≤ log(B) 则接受 H0；否则继续采样。停止时间满足期望样本量优于固定样本量在同等错误约束下。
S52-4（等效性检验 TOST）
- 设参数差 theta 与等效区间 (-delta_equiv, +delta_equiv)；进行两侧单边检验：
  1. H0_left: theta ≤ -delta_equiv 对抗 H1_left: theta > -delta_equiv
  2. H0_right: theta ≥ +delta_equiv 对抗 H1_right: theta < +delta_equiv
- 结论“等效”当且仅当两侧 p_value 均 < alpha。

IV. 数据与清单口径

TestPlan.yaml 最小字段
id，statement，T(x) 定义与域，alpha，beta 或 power，effect_size/delta_equiv，n 或 stopping_rule，FDR_policy(q_star, m)，covariates，preprocess，EnvLock，anchor。
FDRPolicy.json
method ∈ {BH, BY, gatekeeping}，q_star，families（分层族定义），dependency_assumption，adjustment_notes。
SPRT.rule
p0，p1 或参数化似然，alpha，beta，A，B，max_samples，early_stop_criteria。
记录与追溯
每次执行需记录 rng.seed，rng_family，ts 与 tau_mono 映射参数，hash(dataset)，fingerprint(artifacts)。

V. 算法与实现绑定

原型（新增至 I50-*）
- I50-11 design_test(spec:dict) -> TestPlan（计算 n 或 stopping_rule，校核 check_dim(expr)）。
- I50-12 bh_fdr(pvals:list, q_star:float) -> {k:int, reject_mask:list}。
- I50-13 sprt(stream:any, rule:dict) -> {decision:str, n:int, LLR:float}。
- I50-14 tost(sample:dict, delta_equiv:float, alpha:float) -> {p_left:float, p_right:float, decision:str}。
幂等与异常
- 幂等条件：同一 TestPlan、同一 EnvLock、同一 rng.seed → 判决重现。
- 可能异常：E_POWER_INSUFFICIENT，E_MULTITEST_UNCONTROLLED，E_ORACLE_AMBIGUOUS，E_ENV_MISMATCH，E_NONDETERMINISM。

VI. 计量流程与运行图

Mx-51 预注册与设计
固化 TestPlan → 校核量纲与时间轴映射 → 计算样本量 n 或生成 SPRT.rule。
Mx-52 执行与记录
在 EnvLock 下采集样本或流式数据 → 计算 T(x)、p_value 或更新 LLR_n → 持续记录 TS.* 与 rng.*。
Mx-53 决策与错误控制
单检验：依据 C_alpha 决策；多检验：bh_fdr 生成拒绝集；顺序检验：依据 A/B 判决或继续。
Mx-54 归档与签名
汇总 EvidencePack.sig（功效、覆盖、FDR、TS.*、EnvLock），生成 hash(·) 与 anchor 记录。

VII. 验证与测试矩阵

最小必测
- 样本量回填：给定 alpha/beta/effect_size/sigma，design_test 的 n 与解析式一致（S52-1）。
- BH 正确性：构造单调 p_value 集合，I50-12 返回的 k 满足 p_(k) ≤ (k/m)*q_star 与最大性。
- SPRT 门限：边界输入使 LLR_n = log(A) 与 log(B) 时判决正确（S52-3）。
边界与极端
- q_star → 0，m → 1，delta_equiv → 0，alpha → 0 或 beta → 0 的极限行为。
- 依赖性破坏：相关 p_value 下 BH 的保守性检查与告警。
一致性与复现
重放试验 = 3 次，判决方差在设定阈内；时基映射一致（离线/在线）并通过 delta_offon 守门。

VIII. 交叉引用与依赖

《Core.Metrology》（误差度量、分布假设与检验库）、《Core.Errors》（异常分级）、《Core.DataSpec》（数据字段与量纲）、《Core.Threads》（执行与并发）。
《EFT.WP.Methods.Inference》第7章（不确定性与校准）、第6章（在线/离线一致性）、第12章（验收与发布）。

IX. 风险、限制与开放问题

分布失配导致 alpha 漂移；BH 对依赖的敏感性；顺序多次窥视引发的错误开销累积；等效性区间选择的业务主观性。
开放问题：在线自适应 FDR（流式 q_star 调度）与 alpha-spending 的统一框架；在多站点环境下检验族的分层与共享开销预算。

X. 交付件与版本管理

交付件
TestPlan.yaml，PowerAnalysis.pdf，FDR.log，SPRT.trace，TOST.report，EvidencePack.sig.tar。
版本策略
任何门限或策略变更均递增 TestPlan.version 与 schema_id；发布前记录 EnvLock、anchor 与全量 hash(·)；跨版本保持 P51-* / S52-* 口径不变或给出映射说明。