目录 / 文档-技术白皮书 / 15-EFT.WP.Methods.Falsification v1.0
I. 范围与目标
- 本章建立证伪活动中的统计检验与错误控制框架,覆盖显著性与功效、样本量规划、等效性与不劣检验、多重检验 FDR/FWER 控制、顺序/自适应检验与显著性预算分配;统一离线批评估与在线守门的口径,使 GateDecision ∈ {pass, hold, block} 可据统计证据与风险预算自动决策。全程在锁定环境 EnvLock 与共同时基 ts = alpha + beta * tau_mono 下执行。
- 冲突名消解
为避免与时基映射中的 alpha, beta 混淆,本章显著性与二类错误分别记为 alpha_sig 与 beta_err;功效 power = 1 - beta_err。
II. 术语与符号
- 假设与统计量
- H0,H1,T(x)(检验统计量),C_alpha(拒绝域),p_value。
- 效应量:d = ( mu_1 - mu_0 ) / sigma_pooled,OR(odds ratio),ΔAUC,ΔECE,ΔNLL。
- 等效/不劣阈:delta_equiv,delta_noninf。
- 错误与功效
- alpha_sig(I 类错误),beta_err(II 类错误),power = 1 - beta_err。
- 多重检验:m(检验数),R(拒绝数),V(误拒绝数),FDR = E[ V / max(R,1) ],FWER = P( V ≥ 1 ),q_star(FDR 目标)。
- 顺序与预算
似然比序列 Lambda_n,阈 A,B,显著性预算函数 alpha_spend(t);家族显著性预算 alpha_family。 - 样本量与分位
z_{p}(正态分位),t_{p,df}(t 分位),n_per_group(组样本量),N_min(最小总样本量)。
III. 公设与最小方程
- P51-10(家族显著性预算公设)
对同一家族的检验集合 {H0_i},若分配预算 {alpha_i} 满足 Σ alpha_i ≤ alpha_family,并采用保守或一步调整程序,则 FWER ≤ alpha_family。 - P51-11(显著性花费一致性公设)
顺序/自适应检验若满足 Σ_{t=1..T} alpha_spend(t) ≤ alpha_family,且停止规则对 H0 下的样本路径可测,则整体 I 类错误受控:P_H0( reject ) ≤ alpha_family。 - S52-18(p 值与拒绝域)
单侧:p_value = P( T ≥ T_obs | H0 );双侧:p_value = 2 * min{ P( T ≥ T_obs | H0 ), P( T ≤ T_obs | H0 ) };规则:p_value ≤ alpha_sig → reject H0。 - S52-19(功效定义)
power = P( T ∈ C_{alpha_sig} | H1 ) = 1 - beta_err。 - S52-20(两独立均值差 z 检验样本量,方差已知)
n_per_group = ( ( z_{1 - alpha_sig/2} + z_{1 - beta_err} )^2 * 2 * sigma^2 ) / delta_min^2,其中 delta_min = | mu_1 - mu_0 | 的最小可检效应。 - S52-21(两比例差样本量近似)
设目标比例 p1, p2,p_bar = ( p1 + p2 ) / 2:
n_per_group = ( z_{1 - alpha_sig/2} * sqrt( 2 * p_bar * ( 1 - p_bar ) ) + z_{1 - beta_err} * sqrt( p1 * ( 1 - p1 ) + p2 * ( 1 - p2 ) ) )^2 / ( p1 - p2 )^2。 - S52-22(Benjamini–Hochberg,FDR 控制)
排序 p_(1) ≤ ... ≤ p_(m),取 k = max{ i : p_(i) ≤ ( i / m ) * q_star },则拒绝 {H0_(1)..H0_(k)},满足 FDR ≤ q_star(独立或正相关时)。 - S52-23(Holm 步降法,FWER 控制)
排序 p_(1) ≤ ... ≤ p_(m),依次检验 p_(i) ≤ alpha_sig / ( m - i + 1 ),首次不满足即停止并保留其后全部假设;FWER ≤ alpha_sig。 - S52-24(层级门控与优先级)
设层级 L1 → L2 → ... 与预算 {alpha_l},若 Lk 未整体通过,则不释放 Lk+1 的预算;若通过,按预设规则将未花费预算滚入下层:alpha_{k+1} ← alpha_{k+1} + unspent(alpha_k)。 - S52-25(TOST 等效性检验)
- 原假设 H0: | mu - mu0 | ≥ delta_equiv;备择 H1: | mu - mu0 | < delta_equiv。
- 进行两单侧检验:T1 = ( ( mu - mu0 ) - ( - delta_equiv ) ) / SE,T2 = ( ( mu - mu0 ) - ( + delta_equiv ) ) / SE;若 p1 ≤ alpha_sig 且 p2 ≤ alpha_sig,则判为等效。
- S52-26(不劣检验)
H0: mu_ref - mu_cand ≥ delta_noninf;若 P( mu_ref - mu_cand < delta_noninf ) ≥ 1 - alpha_sig 或等价单侧检验显著,则判不劣。 - S52-27(SPRT 顺序检验边界)
似然比 Lambda_n = Π_{i=1..n} ( f_1( x_i ) / f_0( x_i ) );若 Lambda_n ≥ A = ( 1 - beta_err ) / alpha_sig 则拒绝 H0;若 Lambda_n ≤ B = beta_err / ( 1 - alpha_sig ) 则接受 H0;否则继续采样。 - S52-28(显著性花费函数)
给定总预算 alpha_family 与花费曲线 alpha_spend(t),保证任意 t 有 Σ_{i=1..t} alpha_spend(i) ≤ alpha_family;示例:alpha_spend^{OF}(t) = 2 - 2 * Phi( z_{alpha_family/2} / sqrt(t) )(O'Brien–Fleming 型)。
IV. 数据与清单口径
- HypothesisRegistry(最小字段)
{hid, H0, H1, effect_size_spec, delta_equiv?, delta_noninf?, metric, tail ∈ {one, two}, alpha_sig, beta_err, power_target, assumptions}。 - TestPlan.card
{design ∈ {two-sample, paired, proportion, nonparam}, n_per_group|N_min, allocation_ratio, blocking, stratification, seeds, prereg_sig: alpha_sig, prereg_beta: beta_err}。 - MultiTest.family
{scope, members[hid], control ∈ {BH, Holm, Bonferroni, gatekeeping}, q_star|alpha_family, dependency_assumption}。 - SeqTest.rule
{type ∈ {SPRT, alpha-spending}, params{A,B|alpha_spend(·)}, stop ∈ {accept, reject, maxN}, monitoring_window}。 - 产出追溯
每次运行生成 {p_table.csv, adj_p.csv, decision.log, power_check.json, ci_table.csv, alpha_budget.yaml, hash(·), fingerprint}。
V. 算法与实现绑定
- 与 I50-* 的对应
- 多重检验:I50-6 sequential_test(当 type = alpha-spending),I50-9 gate_release(依据 FDR/FWER 报告与证据包)。
- 统计计算扩展原型
- I50-11 adjust_pvalues(p:list, method:str, q_or_alpha:float) -> {p_adj:list, reject:list}
- I50-12 plan_sample_size(spec:dict) -> {n_per_group:int, power:float}
- I50-13 tost_equivalence(x:any, y:any, delta_equiv:float, alpha_sig:float) -> Verdict
- 参考流程(BH,步骤法)
- 输入 p[1..m] 与 q_star,升序排序得 p_(i)。
- 计算阈列 tau_i = ( i / m ) * q_star。
- 取 k = max{ i : p_(i) ≤ tau_i };reject[1..k] = true,其余为 false。
- 生成 p_adj:p_adj_(i) = min_{j ≥ i} ( m / j ) * p_(j ),并回写到原索引。
- 参考流程(Holm,步降法)
- 排序 p_(i);对 i = 1..m 依次比较 p_(i) ≤ alpha_sig / ( m - i + 1 )。
- 若第 i* 次首次不满足,则拒绝 {1..i*-1},接受 {i*..m};若全部满足,则拒绝 {1..m}。
- 参考流程(SPRT)
- 初始化 A,B;逐个观测更新 Lambda_n。
- 若 Lambda_n ≥ A → reject;若 Lambda_n ≤ B → accept;若 n ≥ N_cap → stop = hold。
- 输出 {decision, n_used, alpha_spent ≈ P_H0( reject )}。
VI. 计量流程与运行图
- Mx-59 样本量规划与预注册
基于 effect_size_spec、alpha_sig、beta_err 计算 n_per_group;生成 TestPlan.card 与 alpha_budget.yaml;冻结 seeds 与分析脚本哈希。 - Mx-60 多重检验与家族错误控制
组织家族与层级,选择控制法(BH/Holm/gatekeeping);输出 adj_p.csv 与 decision.log;若 FDR > q_star 或 FWER > alpha_family,触发 GateDecision = hold。 - Mx-61 顺序/在线检验与守门联动
配置 SeqTest.rule 与监控窗口;运行 I50-6 sequential_test;与 TS.error/TS.latency 联动,进入 block/hold 时记录停止证据与预算花费 Σ alpha_spend。
VII. 验证与测试矩阵
- I 类错误校准(空模型仿真)
- 在 H0 下重复 B 次(B ≥ 10^4)估计 P( reject ),要求 | P( reject ) - alpha_sig | ≤ tau_calib。
- 多重情形下估计 FDR 或 FWER,验证不超过预算。
- 功效与样本量回查
- 在 H1 下仿真估计 power_hat,满足 power_hat ≥ power_target - tau_power。
- CI 覆盖率检查:双侧 1 - alpha_sig 区间覆盖 1 - alpha_sig ± tau_cov。
- 顺序检验健壮性
可选停与数据窥视仿真,验证 alpha_spend 约束下 I 类错误不膨胀;比较 SPRT 的期望样本量与上限 N_cap。 - 假设前提与稳健性
正态/方差齐次性等前提的违背下,使用置换或自助法估计 p_value 与 CI,并记录偏差。
VIII. 交叉引用与依赖
- 依赖:《Core.Metrology》(度量与置信)、《Core.Errors》(错误类型与门限)、《Core.DataSpec》(数据口径)。
- 交叉:与本卷第3章(公设)共享 power、FDR 与顺序检验口径;与第8章(不确定性)共享 ECE/MCE/NLL 的检验与区间;与第9章(在线守门)共享 GateDecision 与预算花费联动。
IX. 风险、限制与开放问题
- 风险与限制
非独立 p_value 下的 BH 失效边界;分布漂移导致检验前提失效;多指标扫描引入隐性多重比较;可选停未受控带来 I 类错误膨胀;极端稀疏事件下近似分布不可靠。 - 开放问题
在线 FDR 的投资式预算与门控融合;跨域/跨设备共享 alpha_budget 的迁移校准;对 ΔECE/ΔNLL 等复杂度量的精确功效分析。
X. 交付件与版本管理
- 交付件
HypothesisRegistry.json,TestPlan.card,alpha_budget.yaml,p_table.csv,adj_p.csv,decision.log,power_check.json,ci_table.csv,SeqTest.rule,SeqTest.log,Evidence.bundle(含 hash(·) 与 fingerprint)。 - 版本策略
调整 alpha_sig/beta_err/power_target 或家族控制法递增 minor;改变显著性预算或顺序规则递增 major;任何变更均更新签名并在附录C登记历史索引。
版权与许可(CC BY 4.0)
版权声明:除另有说明外,《能量丝理论》(含文本、图表、插图、符号与公式)的著作权由作者(“屠广林”先生)享有。
许可方式:本作品采用 Creative Commons 署名 4.0 国际许可协议(CC BY 4.0)进行许可;在注明作者与来源的前提下,允许为商业或非商业目的进行复制、转载、节选、改编与再分发。
署名格式(建议):作者:“屠广林”;作品:《能量丝理论》;来源:energyfilament.org;许可证:CC BY 4.0。
首次发布: 2025-11-11|当前版本:v5.1
协议链接:https://creativecommons.org/licenses/by/4.0/