目录 / 文档-技术白皮书 / 15-EFT.WP.Methods.Falsification v1.0
I. 范围与目标
- 本章确立证伪的理论基线与操作公设,定义最小方程族 S52-*(功效分析、错误控制、顺序检验、等效性)与对应的可执行准则,确保在锁定环境 EnvLock 下,证伪决策以可观测量为依据、以可复现为约束、以合规为目标。
- 通过标准:
任一断言 A 可映射为检验三元组 <T(x), C_alpha, decision_rule>;给定 alpha/beta/delta_equiv/q_star,可计算样本量或门限;多重检验的 FDR 控制或顺序检验的错误开销被明确并验证。
II. 术语与符号
- 假设与检验:H0,H1,T(x),C_alpha,alpha,beta,power = 1 - beta,p_value,effect_size,delta_equiv。
- 多重检验:m(检验数),R(拒绝数),V(误拒绝数),FDR = E[ ( V / max(R,1) ) ],FWER,q_star(目标 FDR)。
- 顺序检验与流:SPRT,LLR_n = Σ_{i=1..n} log( p1(x_i) / p0(x_i) ),A,B。
- 时基与环境:tau_mono,ts,ts = alpha + beta * tau_mono(映射参数同名但语义为时间线性映射),EnvLock,anchor,rng.seed,rng_family。
- 运行与守门:TS.latency,TS.error,GateDecision ∈ {pass, hold, block},ECE/MCE/NLL,delta_offon,R_infer = 1 - delta_offon。
III. 公设与最小方程
- P51-1(可证伪性与可观测性公设)
任何主张须存在可测统计量 T(x) 与在 H0 下可界定的拒绝域 C_alpha,使 decision = [ T(x) ∈ C_alpha ] 的一类错误不超过 alpha,且 T(x) 的观测不改变其在 H0/H1 下的分布。 - P51-2(断言可分解与可组合公设)
复合断言 A = ⋀_k A_k 或 A = ⋁_k A_k 可分解为子检验族 {T_k(x), C_{alpha_k}};当采用门控或层级程序时,总体错误控制满足指定上界(如 FDR ≤ q_star 或 FWER ≤ alpha)。 - P51-3(预注册与环境锁定公设)
检验在执行前须预注册 <metric, alpha, beta, delta_equiv, q_star, stopping_rule>,并绑定 EnvLock;在同一 EnvLock 与同一 anchor 下重复试验的判决分布保持不变。 - S52-1(功效与样本量最小方程)
- 定义功效 power = P_{H1}( T(X) ∈ C_alpha ) = 1 - beta。
- 正态均值差场景(方差已知、双侧)样本量近似:n = ( ( z_{1-alpha/2} + z_{1-beta} )^2 * sigma^2 ) / delta^2,其中 delta 为 effect_size,sigma 为标准差。
- S52-2(Benjamini–Hochberg FDR 控制)
给定 m 个 p_value 的升序序列 p_(1) ≤ ... ≤ p_(m),取 k = max{ i : p_(i) ≤ ( i / m ) * q_star },则拒绝前 k 个假设,满足 FDR ≤ q_star(独立或 PRDS 条件下)。 - S52-3(顺序概率比检验 SPRT)
- 设 LLR_n = Σ_{i=1..n} log( p1(x_i) / p0(x_i) ),阈值 A = ( 1 - beta ) / alpha,B = beta / ( 1 - alpha )。
- 规则:若 LLR_n ≥ log(A) 则拒绝 H0;若 LLR_n ≤ log(B) 则接受 H0;否则继续采样。停止时间满足期望样本量优于固定样本量在同等错误约束下。
- S52-4(等效性检验 TOST)
- 设参数差 theta 与等效区间 (-delta_equiv, +delta_equiv);进行两侧单边检验:
- H0_left: theta ≤ -delta_equiv 对抗 H1_left: theta > -delta_equiv
- H0_right: theta ≥ +delta_equiv 对抗 H1_right: theta < +delta_equiv
- 结论“等效”当且仅当两侧 p_value 均 < alpha。
- 设参数差 theta 与等效区间 (-delta_equiv, +delta_equiv);进行两侧单边检验:
IV. 数据与清单口径
- TestPlan.yaml 最小字段
id,statement,T(x) 定义与域,alpha,beta 或 power,effect_size/delta_equiv,n 或 stopping_rule,FDR_policy(q_star, m),covariates,preprocess,EnvLock,anchor。 - FDRPolicy.json
method ∈ {BH, BY, gatekeeping},q_star,families(分层族定义),dependency_assumption,adjustment_notes。 - SPRT.rule
p0,p1 或参数化似然,alpha,beta,A,B,max_samples,early_stop_criteria。 - 记录与追溯
每次执行需记录 rng.seed,rng_family,ts 与 tau_mono 映射参数,hash(dataset),fingerprint(artifacts)。
V. 算法与实现绑定
- 原型(新增至 I50-*)
- I50-11 design_test(spec:dict) -> TestPlan(计算 n 或 stopping_rule,校核 check_dim(expr))。
- I50-12 bh_fdr(pvals:list, q_star:float) -> {k:int, reject_mask:list}。
- I50-13 sprt(stream:any, rule:dict) -> {decision:str, n:int, LLR:float}。
- I50-14 tost(sample:dict, delta_equiv:float, alpha:float) -> {p_left:float, p_right:float, decision:str}。
- 幂等与异常
- 幂等条件:同一 TestPlan、同一 EnvLock、同一 rng.seed → 判决重现。
- 可能异常:E_POWER_INSUFFICIENT,E_MULTITEST_UNCONTROLLED,E_ORACLE_AMBIGUOUS,E_ENV_MISMATCH,E_NONDETERMINISM。
VI. 计量流程与运行图
- Mx-51 预注册与设计
固化 TestPlan → 校核量纲与时间轴映射 → 计算样本量 n 或生成 SPRT.rule。 - Mx-52 执行与记录
在 EnvLock 下采集样本或流式数据 → 计算 T(x)、p_value 或更新 LLR_n → 持续记录 TS.* 与 rng.*。 - Mx-53 决策与错误控制
单检验:依据 C_alpha 决策;多检验:bh_fdr 生成拒绝集;顺序检验:依据 A/B 判决或继续。 - Mx-54 归档与签名
汇总 EvidencePack.sig(功效、覆盖、FDR、TS.*、EnvLock),生成 hash(·) 与 anchor 记录。
VII. 验证与测试矩阵
- 最小必测
- 样本量回填:给定 alpha/beta/effect_size/sigma,design_test 的 n 与解析式一致(S52-1)。
- BH 正确性:构造单调 p_value 集合,I50-12 返回的 k 满足 p_(k) ≤ (k/m)*q_star 与最大性。
- SPRT 门限:边界输入使 LLR_n = log(A) 与 log(B) 时判决正确(S52-3)。
- 边界与极端
- q_star → 0,m → 1,delta_equiv → 0,alpha → 0 或 beta → 0 的极限行为。
- 依赖性破坏:相关 p_value 下 BH 的保守性检查与告警。
- 一致性与复现
重放试验 = 3 次,判决方差在设定阈内;时基映射一致(离线/在线)并通过 delta_offon 守门。
VIII. 交叉引用与依赖
- 《Core.Metrology》(误差度量、分布假设与检验库)、《Core.Errors》(异常分级)、《Core.DataSpec》(数据字段与量纲)、《Core.Threads》(执行与并发)。
- 《EFT.WP.Methods.Inference》第7章(不确定性与校准)、第6章(在线/离线一致性)、第12章(验收与发布)。
IX. 风险、限制与开放问题
- 分布失配导致 alpha 漂移;BH 对依赖的敏感性;顺序多次窥视引发的错误开销累积;等效性区间选择的业务主观性。
- 开放问题:在线自适应 FDR(流式 q_star 调度)与 alpha-spending 的统一框架;在多站点环境下检验族的分层与共享开销预算。
X. 交付件与版本管理
- 交付件
TestPlan.yaml,PowerAnalysis.pdf,FDR.log,SPRT.trace,TOST.report,EvidencePack.sig.tar。 - 版本策略
任何门限或策略变更均递增 TestPlan.version 与 schema_id;发布前记录 EnvLock、anchor 与全量 hash(·);跨版本保持 P51-* / S52-* 口径不变或给出映射说明。
版权与许可(CC BY 4.0)
版权声明:除另有说明外,《能量丝理论》(含文本、图表、插图、符号与公式)的著作权由作者(“屠广林”先生)享有。
许可方式:本作品采用 Creative Commons 署名 4.0 国际许可协议(CC BY 4.0)进行许可;在注明作者与来源的前提下,允许为商业或非商业目的进行复制、转载、节选、改编与再分发。
署名格式(建议):作者:“屠广林”;作品:《能量丝理论》;来源:energyfilament.org;许可证:CC BY 4.0。
首次发布: 2025-11-11|当前版本:v5.1
协议链接:https://creativecommons.org/licenses/by/4.0/