目录文档-技术白皮书14-EFT.WP.Methods.Inference v1.0

第7章 不确定性与校准


I. 范围与目标

  1. 建立推理不确定性的对象模型、度量与报告口径,覆盖回归与分类两类输出、点估计与分布估计、单模型与集成模型的并行表述。
  2. 定义并验证后验校准流程与门限,给出离线校准与在线部署的一致性契约;提供漂移下的再校准触发与回退策略。
  3. 目标产出:
    • 不确定性分解:var_total(x) = var_ale(x) + var_epi(x);
    • 预测区间与覆盖:PI_(1-delta_conf)(x),cov = ( 1/N ) * Σ 1[ y_i ∈ PI_i ];
    • 校准度量:ECE,MCE,NLL,BS;
    • 校准卡与指纹:CalibCard,fingerprint = hash( method || data.split || params );
    • 工作流与门限:Mx-61 → Mx-66,tau_ECE,tau_cov,tau_NLL,tau_sharp。

II. 术语与符号

  1. 概率与输出:
    • p(y | x, theta)(似然),p(theta | D)(后验),y_hat(点预测)。
    • 分类概率向量 p_hat = softmax( z / T_scale ),z 为 logits,T_scale 为温度缩放参数。
    • 预测熵 H(p_hat) = - Σ_j p_hat_j * ln( p_hat_j )。
  2. 不确定性成分:
    • var_ale(x)(偶然不确定性,数据内在噪声),var_epi(x)(认知不确定性,参数不确定性)。
    • 集成 K 模型下:mu(x) = ( 1/K ) * Σ mu_k(x);var_epi(x) = ( 1/K ) * Σ ( mu_k(x) - mu(x) )^2;若每个模型输出方差 sigma_k^2(x),var_ale(x) = ( 1/K ) * Σ sigma_k^2(x)。
  3. 校准与覆盖:
    • ECE = Σ_{b=1..B} ( n_b / N ) * | acc(B_b) - conf(B_b) |(top-label ECE)。
    • MCE = max_b | acc(B_b) - conf(B_b) |。
    • NLL = -( 1 / N ) * Σ ln p_hat_{i, y_i }。
    • BS = ( 1 / N ) * Σ || p_hat_i - onehot( y_i ) ||^2。
    • 置信度符号使用 delta_conf(避免与差异量混淆),发布区间名 PI_(1-delta_conf)。
  4. 合规与指纹:
    EnvLock,anchor,hash(·),fingerprint,CalibCard(校准卡)。

III. 公设与最小方程


IV. 数据与清单口径


V. 算法与实现绑定

  1. 核心原型:
    • I40-6 estimate_uncertainty(runtime:Runtime, x:any) -> {mean:any, var:any, intervals:list, entropy:any, epi:float, ale:float}
    • I40-5 calibrate(runtime:Runtime, method:str, data:any) -> CalibReport
    • I40-4 score_predictions(y_true:any, y_pred:any, metrics:dict) -> ScoreReport
  2. estimate_uncertainty 口径:
    回归:返回 mean=mu(x),var=var_total(x),并给出 PI_(1-delta_conf);分类:返回 p_hat,entropy=H(p_hat),若启用集成/采样,附带 epi 与 ale 的估计。
  3. calibrate 支持方法:
    • temperature:p_hat = softmax( z / T_scale ),优化 T_scale 以最小化 NLL 于 calib。
    • platt:对二分类分数 s 拟合 g(s) = 1 / ( 1 + exp( a*s + b ) )。
    • isotonic:单调分段映射 g(s);多分类可对 top-1 分数或逐类独立标定。
    • dirichlet:将 z 映射至 Dirichlet 参数以匹配校准矩与熵。
    • 回归校准:variance scaling(sigma' = c * sigma),quantile calibration(对目标分位点拟合保序映射)。
  4. 失败与异常:
    若 ECE 或 NLL 未改善则抛 E_CALIBRATION_FAIL;若 stream 漂移触发则抛 E_DRIFT_DETECTED 并附带漂移证据;模式不匹配抛 E_SCHEMA_MISMATCH。

VI. 计量流程与运行图


VII. 验证与测试矩阵


VIII. 交叉引用与依赖

与第3章之 S42-1 风险最小化与误差分解一致;与第6章在线/离线一致性共用 EnvLock、anchor、TS.* 与回退编排;与《EFT.WP.Methods.Repro》第8章评分与门限对接;谱口径与 S_xx(f) 见第3章与《Core.Metrology》。

IX. 风险、限制与开放问题


X. 交付件与版本管理

  1. 交付件:
    • CalibReport.json(含 method, params, ECE/MCE/NLL/BS, cov, sharp, delta_conf, B, pass);
    • CalibCard.yaml(含 fingerprint、数据切分、映射定义与版本);
    • ReliabilityPlot 与 CoveragePlot 快照;
    • 更新后的 ScoreReport 与上线灰度评测记录。
  2. 版本策略:
    任何改变 calib.method、分桶数 B、delta_conf、variance/quantile 口径、集成规模 K、或影响 p_hat 的算子/量化变更,须提升次版本;若 C(·) 结构改变(如 isotonic → dirichlet),须提升主版本并在附录C登记 CHANGELOG 与 fingerprint = hash( CalibCard )。

版权与许可(CC BY 4.0)

版权声明:除另有说明外,《能量丝理论》(含文本、图表、插图、符号与公式)的著作权由作者(“屠广林”先生)享有。
许可方式:本作品采用 Creative Commons 署名 4.0 国际许可协议(CC BY 4.0)进行许可;在注明作者与来源的前提下,允许为商业或非商业目的进行复制、转载、节选、改编与再分发。
署名格式(建议):作者:“屠广林”;作品:《能量丝理论》;来源:energyfilament.org;许可证:CC BY 4.0。

首次发布: 2025-11-11|当前版本:v5.1
协议链接:https://creativecommons.org/licenses/by/4.0/