目录 / 文档-技术白皮书 / 15-EFT.WP.Methods.Falsification v1.0
I. 范围与目标
- 本章给出基于不确定性估计与校准的证伪置信口径,覆盖后验/预测分布、区间与集合、ECE/MCE/NLL/Brier 校准度量、温度缩放与单调回归、保形(Conformal)覆盖、OOD 探测与风险预算,形成与在线守门 GateDecision ∈ {pass, hold, block} 的可执行联动机制。全程遵循共同时基 ts = alpha + beta * tau_mono 与锁定环境 EnvLock。
- 冲突名消解
显著性与二类错误沿用 alpha_sig、beta_err;本章覆盖目标用 delta_cov 表示失覆盖率(置信度为 1 - delta_cov),避免与 delta_offon 混淆。
II. 术语与符号
- 后验与预测
- p(theta | D),p(y | x, theta),p(y | x, D) = ( ∫ p(y | x, theta) p(theta | D) d theta )。
- 预测矩:mean = E[ y | x, D ],var = Var[ y | x, D ],quantile_q。
- 区间与集合
- 置信区间 CI_{1 - delta_cov};贝叶斯置信区间 CrI_{1 - delta_cov};预测区间 PI_{1 - delta_cov}。
- 保形预测集 Pi(x) = { y : S(x,y) ≤ q_{1 - delta_cov} },其中 S(x,y) 为非一致性分数。
- 不确定性分解
var_total = E_{p(theta|D)}[ var( y | x, theta ) ] + var_{p(theta|D)}( E[ y | x, theta ] )(分别对应 aleatoric 与 epistemic)。 - 校准与度量
- ECE,MCE,NLL = ( - 1/N ) * Σ log p_hat( y_i | x_i ),Brier = ( 1/N ) * Σ || p_hat_i - onehot(y_i) ||_2^2。
- 分桶:bins = {B_b},conf_b(平均置信),acc_b(平均准确)。
- 在线守门与风险
违例概率:P( violation | D );风险预算 rho_budget;策略阈值 {tau_pass, tau_hold, tau_block}。 - 失配与漂移
- 一致度:delta_offon = ( norm( y_hat_off - y_hat_on ) / norm( y_hat_off ) ),R_infer = 1 - delta_offon。
- OOD(x)(分布外分数),门限 tau_ood。
III. 公设与最小方程
- P51-12(后验预测一致性公设)
在锁定 EnvLock 与稳定数据口径下,证伪判据只应依赖 p(y | x, D) 与校准映射 Cal(·) 的组合,而不依赖实现细节。 - P51-13(校准—守门耦合公设)
若 ECE ≤ tau_ECE 且度量对概率变化 Lipschitz(L),则门控风险偏差上界满足 | R_gate( p_hat ) - R_gate( p_true ) | ≤ L * tau_ECE。 - P51-14(交换性保形覆盖公设)
标注集与校准集在 exchangeable 条件下,Pi(x) 以概率至少 1 - delta_cov 覆盖真实标签。 - S52-29(后验预测)
p(y | x, D) = ( ∫ p(y | x, theta) p(theta | D) d theta )。 - S52-30(方差分解)
var_total = E_{p(theta|D)}[ var( y | x, theta ) ] + var_{p(theta|D)}( E[ y | x, theta ] )。 - S52-31(ECE 与 MCE)
ECE = Σ_{b=1..B} ( |B_b| / N ) * | acc_b - conf_b |;MCE = max_{b} | acc_b - conf_b |。 - S52-32(温度缩放)
p'_k = softmax( logit_k / T ),T > 0;T* = arg min_T ( - Σ log p'_y )(在验证集上)。 - S52-33(保形分位标定)
q_{1 - delta_cov} = quantile_{1 - delta_cov}( { S(x_j, y_j) }_{j ∈ calib} );Pi(x) = { y : S(x,y) ≤ q_{1 - delta_cov} };保证 P( y ∈ Pi(x) ) ≥ 1 - delta_cov。 - S52-34(覆盖率估计与置信)
设覆盖指示 Z_i ∈ {0,1},cov_hat = ( 1/N ) * Σ Z_i;Hoeffding 界:P( cov_true ≥ cov_hat - epsilon ) ≥ 1 - exp( -2 * N * epsilon^2 )。 - S52-35(OOD 联动门控)
若 OOD(x) ≥ tau_ood,则将 delta_cov ← min( 1, delta_cov + delta_boost ) 并提升 GateDecision 等级(pass → hold 或 hold → block)。 - S52-36(证伪决策规则)
设 r = P( violation | D ),则
r ≥ tau_block → GateDecision = block;
tau_hold ≤ r < tau_block → GateDecision = hold;
r < tau_hold → GateDecision = pass;
其中 {tau_hold, tau_block} 由 rho_budget 与 alpha_sig、beta_err 联合约束。
IV. 数据与清单口径
- Uncertainty.card
{method ∈ {ensemble, mc_dropout, laplace, bootstrap, bayes}, n_members, rng.seed, rng_family, aleatoric_flag:bool, epistemic_flag:bool}。 - Calibration.card
{scheme ∈ {temperature, isotonic}, bins:B, binning ∈ {equal-width, equal-mass}, ECE_target, NLL_target, holdout_hash, Cal.sig}。 - Conformal.card
{score:S(x,y), delta_cov, split ∈ {split, cv+}, calib_size, exchangeability_assumption, Pi.sig}。 - 追溯与签名
产出包括 {reliability.csv, ece.json, nll.txt, pi_coverage.csv, ood_thresholds.yaml, Gate.policy, fingerprint, hash(·)}。
V. 算法与实现绑定
- 原型映射(扩展 I50-*)
- I50-14 calibrate_temperature(logits:any, labels:any) -> {T:float, CalibReport}
- I50-15 calibrate_isotonic(scores:list, labels:list) -> CalibModel
- I50-16 conformal_calibrate(scores:list, labels:list, delta_cov:float, mode:str) -> {q:float, Pi}
- I50-17 estimate_uncertainty(runtime:any, x:any, method:str) -> {mean:float, var:float, meta:dict}
- I50-18 ood_score(x:any, method:str) -> float
- 参考流程(ECE 计算)
- 以 bins 将 conf 分桶,得 B_b。
- acc_b = ( 1/|B_b| ) * Σ 1[ y_i = argmax p_hat_i ],conf_b = ( 1/|B_b| ) * Σ max p_hat_i。
- 输出 ECE 与 MCE,并生成可靠性表与图。
- 参考流程(Conformal split)
- 计算校准集分数 S(x_j, y_j),取 q_{1 - delta_cov}。
- 预测时返回 Pi(x) 或区间 PI_{1 - delta_cov}(x);记录覆盖指示 Z_i。
- 参考流程(风险联动)
- 计算 r = P( violation | D ) 或近似上界 r_hat。
- 应用 S52-36 与 S52-35,输出 GateDecision 与解释字段 {ECE, cov_hat, OOD(x)}。
VI. 计量流程与运行图
- Mx-62 校准与置信构建
离线冻结 Calibration.card,求 T* 或单调映射;产出 CalibReport 与 reliability.csv。 - Mx-63 不确定性估计与保形覆盖
选择方法并生成 Uncertainty.card;运行 I50-16 得 q_{1 - delta_cov} 与 Pi.sig;输出 pi_coverage.csv。 - Mx-64 在线守门联动
周期计算 {ECE, cov_hat, OOD},根据 Gate.policy 更新 {tau_hold, tau_block} 与 alpha_spend(t);异常时触发降级与回退。
VII. 验证与测试矩阵
- 校准有效性
- ECE ≤ ECE_target,NLL ≤ NLL_target。
- reliability.csv 无系统性偏差(MCE 在阈内)。
- 覆盖与稳健性
- 在验证集与 OOD 子集分别估计 cov_hat 与 Wilson 区间;要求 cov_hat ≥ 1 - delta_cov - tau_cov。
- 失交换性情境下(打乱或漂移),报告覆盖退化与置信修正策略。
- 决策正确性
回放日志中 GateDecision 的误阻断与漏阻断率,满足 budget.power 与 rho_budget。 - 漂移与一致性
当 delta_offon 超阈时,ECE/cov_hat 变化触发 hold/block,验证联动及时性与误报率。
VIII. 交叉引用与依赖
- 依赖:《Core.Metrology》(度量定义与区间)、《Core.Errors》(错误类型与门限)、《Core.DataSpec》(数据分割与追溯)。
- 协同:与本卷第7章共享 alpha_spend 与门控策略;与《EFT.WP.Methods.Inference》第7章共享 ECE/MCE/NLL 与可靠性图;与第9章共享在线守门接口。
IX. 风险、限制与开放问题
- 风险与限制
exchangeability 被漂移破坏时保形保证失效;温度缩放对长尾与多峰置信不足;OOD 与置信交互可能引入过度阻断;ensemble 成本与 budget.cpu/gpu/mem 冲突。 - 开放问题
在线 FDR 与覆盖预算的统一调度;跨域共享 Pi.sig 的校准迁移;针对 ΔECE/ΔNLL 的功效解析与门限自适应。
X. 交付件与版本管理
- 交付件
Calibration.card,Uncertainty.card,Conformal.card,CalibReport,UncertaintyReport,reliability.csv,pi_coverage.csv,ood_thresholds.yaml,Gate.policy,Evidence.bundle(含 hash(·) 与 fingerprint)。 - 版本策略
调整 delta_cov/ECE_target 记 minor;更换校准或保形策略记 major;任何门控阈值或预算变动需更新签名并登记附录C。
版权与许可(CC BY 4.0)
版权声明:除另有说明外,《能量丝理论》(含文本、图表、插图、符号与公式)的著作权由作者(“屠广林”先生)享有。
许可方式:本作品采用 Creative Commons 署名 4.0 国际许可协议(CC BY 4.0)进行许可;在注明作者与来源的前提下,允许为商业或非商业目的进行复制、转载、节选、改编与再分发。
署名格式(建议):作者:“屠广林”;作品:《能量丝理论》;来源:energyfilament.org;许可证:CC BY 4.0。
首次发布: 2025-11-11|当前版本:v5.1
协议链接:https://creativecommons.org/licenses/by/4.0/