15-EFT.WP.Methods.Falsification v1.0 | 第7章统计检验与错误控制

目录／文档-技术白皮书（V5.05）／ 15-EFT.WP.Methods.Falsification v1.0

第7章统计检验与错误控制

I. 范围与目标

本章建立证伪活动中的统计检验与错误控制框架，覆盖显著性与功效、样本量规划、等效性与不劣检验、多重检验 FDR/FWER 控制、顺序/自适应检验与显著性预算分配；统一离线批评估与在线守门的口径，使 GateDecision ∈ {pass, hold, block} 可据统计证据与风险预算自动决策。全程在锁定环境 EnvLock 与共同时基 ts = alpha + beta * tau_mono 下执行。
冲突名消解
为避免与时基映射中的 alpha, beta 混淆，本章显著性与二类错误分别记为 alpha_sig 与 beta_err；功效 power = 1 - beta_err。

II. 术语与符号

假设与统计量
- H0，H1，T(x)（检验统计量），C_alpha（拒绝域），p_value。
- 效应量：d = ( mu_1 - mu_0 ) / sigma_pooled，OR（odds ratio），ΔAUC，ΔECE，ΔNLL。
- 等效/不劣阈：delta_equiv，delta_noninf。
错误与功效
- alpha_sig（I 类错误），beta_err（II 类错误），power = 1 - beta_err。
- 多重检验：m（检验数），R（拒绝数），V（误拒绝数），FDR = E[ V / max(R,1) ]，FWER = P( V ≥ 1 )，q_star（FDR 目标）。
顺序与预算
似然比序列 Lambda_n，阈 A,B，显著性预算函数 alpha_spend(t)；家族显著性预算 alpha_family。
样本量与分位
z_{p}（正态分位），t_{p,df}（t 分位），n_per_group（组样本量），N_min（最小总样本量）。

III. 公设与最小方程

P51-10（家族显著性预算公设）
对同一家族的检验集合 {H0_i}，若分配预算 {alpha_i} 满足 Σ alpha_i ≤ alpha_family，并采用保守或一步调整程序，则 FWER ≤ alpha_family。
P51-11（显著性花费一致性公设）
顺序/自适应检验若满足 Σ_{t=1..T} alpha_spend(t) ≤ alpha_family，且停止规则对 H0 下的样本路径可测，则整体 I 类错误受控：P_H0( reject ) ≤ alpha_family。
S52-18（p 值与拒绝域）
单侧：p_value = P( T ≥ T_obs | H0 )；双侧：p_value = 2 * min{ P( T ≥ T_obs | H0 ), P( T ≤ T_obs | H0 ) }；规则：p_value ≤ alpha_sig → reject H0。
S52-19（功效定义）
power = P( T ∈ C_{alpha_sig} | H1 ) = 1 - beta_err。
S52-20（两独立均值差 z 检验样本量，方差已知）
n_per_group = ( ( z_{1 - alpha_sig/2} + z_{1 - beta_err} )^2 * 2 * sigma^2 ) / delta_min^2，其中 delta_min = | mu_1 - mu_0 | 的最小可检效应。
S52-21（两比例差样本量近似）
设目标比例 p1, p2，p_bar = ( p1 + p2 ) / 2：
n_per_group = ( z_{1 - alpha_sig/2} * sqrt( 2 * p_bar * ( 1 - p_bar ) ) + z_{1 - beta_err} * sqrt( p1 * ( 1 - p1 ) + p2 * ( 1 - p2 ) ) )^2 / ( p1 - p2 )^2。
S52-22（Benjamini–Hochberg，FDR 控制）
排序 p_(1) ≤ ... ≤ p_(m)，取 k = max{ i : p_(i) ≤ ( i / m ) * q_star }，则拒绝 {H0_(1)..H0_(k)}，满足 FDR ≤ q_star（独立或正相关时）。
S52-23（Holm 步降法，FWER 控制）
排序 p_(1) ≤ ... ≤ p_(m)，依次检验 p_(i) ≤ alpha_sig / ( m - i + 1 )，首次不满足即停止并保留其后全部假设；FWER ≤ alpha_sig。
S52-24（层级门控与优先级）
设层级 L1 → L2 → ... 与预算 {alpha_l}，若 Lk 未整体通过，则不释放 Lk+1 的预算；若通过，按预设规则将未花费预算滚入下层：alpha_{k+1} ← alpha_{k+1} + unspent(alpha_k)。
S52-25（TOST 等效性检验）
- 原假设 H0: | mu - mu0 | ≥ delta_equiv；备择 H1: | mu - mu0 | < delta_equiv。
- 进行两单侧检验：T1 = ( ( mu - mu0 ) - ( - delta_equiv ) ) / SE，T2 = ( ( mu - mu0 ) - ( + delta_equiv ) ) / SE；若 p1 ≤ alpha_sig 且 p2 ≤ alpha_sig，则判为等效。
S52-26（不劣检验）
H0: mu_ref - mu_cand ≥ delta_noninf；若 P( mu_ref - mu_cand < delta_noninf ) ≥ 1 - alpha_sig 或等价单侧检验显著，则判不劣。
S52-27（SPRT 顺序检验边界）
似然比 Lambda_n = Π_{i=1..n} ( f_1( x_i ) / f_0( x_i ) )；若 Lambda_n ≥ A = ( 1 - beta_err ) / alpha_sig 则拒绝 H0；若 Lambda_n ≤ B = beta_err / ( 1 - alpha_sig ) 则接受 H0；否则继续采样。
S52-28（显著性花费函数）
给定总预算 alpha_family 与花费曲线 alpha_spend(t)，保证任意 t 有 Σ_{i=1..t} alpha_spend(i) ≤ alpha_family；示例：alpha_spend^{OF}(t) = 2 - 2 * Phi( z_{alpha_family/2} / sqrt(t) )（O'Brien–Fleming 型）。

IV. 数据与清单口径

HypothesisRegistry（最小字段）
{hid, H0, H1, effect_size_spec, delta_equiv?, delta_noninf?, metric, tail ∈ {one, two}, alpha_sig, beta_err, power_target, assumptions}。
TestPlan.card
{design ∈ {two-sample, paired, proportion, nonparam}, n_per_group|N_min, allocation_ratio, blocking, stratification, seeds, prereg_sig: alpha_sig, prereg_beta: beta_err}。
MultiTest.family
{scope, members[hid], control ∈ {BH, Holm, Bonferroni, gatekeeping}, q_star|alpha_family, dependency_assumption}。
SeqTest.rule
{type ∈ {SPRT, alpha-spending}, params{A,B|alpha_spend(·)}, stop ∈ {accept, reject, maxN}, monitoring_window}。
产出追溯
每次运行生成 {p_table.csv, adj_p.csv, decision.log, power_check.json, ci_table.csv, alpha_budget.yaml, hash(·), fingerprint}。

V. 算法与实现绑定

与 I50-* 的对应
- 多重检验：I50-6 sequential_test（当 type = alpha-spending），I50-9 gate_release（依据 FDR/FWER 报告与证据包）。
- 统计计算扩展原型
  1. I50-11 adjust_pvalues(p:list, method:str, q_or_alpha:float) -> {p_adj:list, reject:list}
  2. I50-12 plan_sample_size(spec:dict) -> {n_per_group:int, power:float}
  3. I50-13 tost_equivalence(x:any, y:any, delta_equiv:float, alpha_sig:float) -> Verdict
参考流程（BH，步骤法）
- 输入 p[1..m] 与 q_star，升序排序得 p_(i)。
- 计算阈列 tau_i = ( i / m ) * q_star。
- 取 k = max{ i : p_(i) ≤ tau_i }；reject[1..k] = true，其余为 false。
- 生成 p_adj：p_adj_(i) = min_{j ≥ i} ( m / j ) * p_(j )，并回写到原索引。
参考流程（Holm，步降法）
- 排序 p_(i)；对 i = 1..m 依次比较 p_(i) ≤ alpha_sig / ( m - i + 1 )。
- 若第 i* 次首次不满足，则拒绝 {1..i*-1}，接受 {i*..m}；若全部满足，则拒绝 {1..m}。
参考流程（SPRT）
- 初始化 A,B；逐个观测更新 Lambda_n。
- 若 Lambda_n ≥ A → reject；若 Lambda_n ≤ B → accept；若 n ≥ N_cap → stop = hold。
- 输出 {decision, n_used, alpha_spent ≈ P_H0( reject )}。

VI. 计量流程与运行图

Mx-59 样本量规划与预注册
基于 effect_size_spec、alpha_sig、beta_err 计算 n_per_group；生成 TestPlan.card 与 alpha_budget.yaml；冻结 seeds 与分析脚本哈希。
Mx-60 多重检验与家族错误控制
组织家族与层级，选择控制法（BH/Holm/gatekeeping）；输出 adj_p.csv 与 decision.log；若 FDR > q_star 或 FWER > alpha_family，触发 GateDecision = hold。
Mx-61 顺序/在线检验与守门联动
配置 SeqTest.rule 与监控窗口；运行 I50-6 sequential_test；与 TS.error/TS.latency 联动，进入 block/hold 时记录停止证据与预算花费 Σ alpha_spend。

VII. 验证与测试矩阵

I 类错误校准（空模型仿真）
- 在 H0 下重复 B 次（B ≥ 10^4）估计 P( reject )，要求 | P( reject ) - alpha_sig | ≤ tau_calib。
- 多重情形下估计 FDR 或 FWER，验证不超过预算。
功效与样本量回查
- 在 H1 下仿真估计 power_hat，满足 power_hat ≥ power_target - tau_power。
- CI 覆盖率检查：双侧 1 - alpha_sig 区间覆盖 1 - alpha_sig ± tau_cov。
顺序检验健壮性
可选停与数据窥视仿真，验证 alpha_spend 约束下 I 类错误不膨胀；比较 SPRT 的期望样本量与上限 N_cap。
假设前提与稳健性
正态/方差齐次性等前提的违背下，使用置换或自助法估计 p_value 与 CI，并记录偏差。

VIII. 交叉引用与依赖

依赖：《Core.Metrology》（度量与置信）、《Core.Errors》（错误类型与门限）、《Core.DataSpec》（数据口径）。
交叉：与本卷第3章（公设）共享 power、FDR 与顺序检验口径；与第8章（不确定性）共享 ECE/MCE/NLL 的检验与区间；与第9章（在线守门）共享 GateDecision 与预算花费联动。

IX. 风险、限制与开放问题

风险与限制
非独立 p_value 下的 BH 失效边界；分布漂移导致检验前提失效；多指标扫描引入隐性多重比较；可选停未受控带来 I 类错误膨胀；极端稀疏事件下近似分布不可靠。
开放问题
在线 FDR 的投资式预算与门控融合；跨域/跨设备共享 alpha_budget 的迁移校准；对 ΔECE/ΔNLL 等复杂度量的精确功效分析。

X. 交付件与版本管理

交付件
HypothesisRegistry.json，TestPlan.card，alpha_budget.yaml，p_table.csv，adj_p.csv，decision.log，power_check.json，ci_table.csv，SeqTest.rule，SeqTest.log，Evidence.bundle（含 hash(·) 与 fingerprint）。
版本策略
调整 alpha_sig/beta_err/power_target 或家族控制法递增 minor；改变显著性预算或顺序规则递增 major；任何变更均更新签名并在附录C登记历史索引。

版权与许可：除另有说明外，《能量丝理论》（含文本、图表、插图、符号与公式）的著作权由作者（屠广林）享有。
许可方式（CC BY 4.0）：在注明作者与来源的前提下，允许复制、转载、节选、改编与再分发。
署名格式（建议）：作者：屠广林｜作品：《能量丝理论》｜来源：energyfilament.org｜许可证：CC BY 4.0
验证召集： 作者独立自费、无雇主无资助；下一阶段将优先在最愿意公开讨论、公开复现、公开挑错的环境中推进落地，不限国家。欢迎各国媒体与同行抓住窗口组织验证，并与我们联系。
版本信息： 首次发布：2025-11-11 ｜当前版本：v6.0+5.05