目录 / 文档-技术白皮书 / 14-EFT.WP.Methods.Inference v1.0
I. 范围与目标
- 建立推理不确定性的对象模型、度量与报告口径,覆盖回归与分类两类输出、点估计与分布估计、单模型与集成模型的并行表述。
- 定义并验证后验校准流程与门限,给出离线校准与在线部署的一致性契约;提供漂移下的再校准触发与回退策略。
- 目标产出:
- 不确定性分解:var_total(x) = var_ale(x) + var_epi(x);
- 预测区间与覆盖:PI_(1-delta_conf)(x),cov = ( 1/N ) * Σ 1[ y_i ∈ PI_i ];
- 校准度量:ECE,MCE,NLL,BS;
- 校准卡与指纹:CalibCard,fingerprint = hash( method || data.split || params );
- 工作流与门限:Mx-61 → Mx-66,tau_ECE,tau_cov,tau_NLL,tau_sharp。
II. 术语与符号
- 概率与输出:
- p(y | x, theta)(似然),p(theta | D)(后验),y_hat(点预测)。
- 分类概率向量 p_hat = softmax( z / T_scale ),z 为 logits,T_scale 为温度缩放参数。
- 预测熵 H(p_hat) = - Σ_j p_hat_j * ln( p_hat_j )。
- 不确定性成分:
- var_ale(x)(偶然不确定性,数据内在噪声),var_epi(x)(认知不确定性,参数不确定性)。
- 集成 K 模型下:mu(x) = ( 1/K ) * Σ mu_k(x);var_epi(x) = ( 1/K ) * Σ ( mu_k(x) - mu(x) )^2;若每个模型输出方差 sigma_k^2(x),var_ale(x) = ( 1/K ) * Σ sigma_k^2(x)。
- 校准与覆盖:
- ECE = Σ_{b=1..B} ( n_b / N ) * | acc(B_b) - conf(B_b) |(top-label ECE)。
- MCE = max_b | acc(B_b) - conf(B_b) |。
- NLL = -( 1 / N ) * Σ ln p_hat_{i, y_i }。
- BS = ( 1 / N ) * Σ || p_hat_i - onehot( y_i ) ||^2。
- 置信度符号使用 delta_conf(避免与差异量混淆),发布区间名 PI_(1-delta_conf)。
- 合规与指纹:
EnvLock,anchor,hash(·),fingerprint,CalibCard(校准卡)。
III. 公设与最小方程
- P41-11 后验校准等价公设
在锁定 EnvLock、固定模型图与量化策略且输入分布稳定的条件下,离线选定的后验校准映射 C(·) 在线上保持等价:C_off ≡ C_on,并满足 ECE <= tau_ECE 与 | cov - ( 1 - delta_conf ) | <= tau_cov。 - P41-12 不确定性分解公设
对回归任务,集成估计的总方差可分为偶然与认知两项:var_total(x) = var_ale(x) + var_epi(x),并以此定义风险预算与告警门。 - S42-21 概率校准(分桶口径)
acc(B_b) = ( 1 / n_b ) * Σ 1[ argmax( p_hat_i ) = y_i ];conf(B_b) = ( 1 / n_b ) * Σ max_j p_hat_{i,j };ECE 与 MCE 如上定义,需声明分桶数 B 与加权口径。 - S42-22 回归区间覆盖与锐度
覆盖率 cov = ( 1 / N ) * Σ 1[ y_i ∈ PI_i ];平均区间宽度 sharp = ( 1 / N ) * Σ length( PI_i );联合门限以 ( | cov - ( 1 - delta_conf ) | <= tau_cov ) ∧ ( sharp <= tau_sharp ) 给出。 - S42-23 近似贝叶斯集成
对分类,集成预测 p_bar = ( 1 / K ) * Σ p_k;互信息近似 MI ≈ H( p_bar ) - ( 1 / K ) * Σ H( p_k ),用于分离认知不确定性。 - S42-24 保序校准映射
二分类分数 s 的校准映射 g(s) 要求单调非降:( s_i <= s_j ) ⇒ ( g(s_i) <= g(s_j) );g 可由 isotonic 或 Platt 拟合,优化目标最小化 NLL 或 BS。
IV. 数据与清单口径
- 训练/验证/校准三分:
train/val/calib 必显式分割,calib 不参与参数学习,仅用于拟合/选择 C(·);字段记录 split.seed,split.policy,split.hash。 - 报告最小字段:
model.version,dtype_policy,quant_scheme,rng.seed,rng_family,calib.method,calib.params,CalibCard.fingerprint,NLL,ECE,MCE,BS,cov,sharp,delta_conf,B(分桶数),coverage.ci(覆盖置信区间构造法,如 bootstrap)。 - 单位与量纲:
概率与误差度量无量纲;ln 自变量为概率或密度且已归一化;发布前执行 check_dim(expr)。
V. 算法与实现绑定
- 核心原型:
- I40-6 estimate_uncertainty(runtime:Runtime, x:any) -> {mean:any, var:any, intervals:list, entropy:any, epi:float, ale:float}
- I40-5 calibrate(runtime:Runtime, method:str, data:any) -> CalibReport
- I40-4 score_predictions(y_true:any, y_pred:any, metrics:dict) -> ScoreReport
- estimate_uncertainty 口径:
回归:返回 mean=mu(x),var=var_total(x),并给出 PI_(1-delta_conf);分类:返回 p_hat,entropy=H(p_hat),若启用集成/采样,附带 epi 与 ale 的估计。 - calibrate 支持方法:
- temperature:p_hat = softmax( z / T_scale ),优化 T_scale 以最小化 NLL 于 calib。
- platt:对二分类分数 s 拟合 g(s) = 1 / ( 1 + exp( a*s + b ) )。
- isotonic:单调分段映射 g(s);多分类可对 top-1 分数或逐类独立标定。
- dirichlet:将 z 映射至 Dirichlet 参数以匹配校准矩与熵。
- 回归校准:variance scaling(sigma' = c * sigma),quantile calibration(对目标分位点拟合保序映射)。
- 失败与异常:
若 ECE 或 NLL 未改善则抛 E_CALIBRATION_FAIL;若 stream 漂移触发则抛 E_DRIFT_DETECTED 并附带漂移证据;模式不匹配抛 E_SCHEMA_MISMATCH。
VI. 计量流程与运行图
- Mx-61 数据分割与锚定
固定 EnvLock 与 anchor;构造 train/val/calib;记录 split.* 与 CalibCard 空白卡。 - Mx-62 不确定性估计基线
在 val 上运行 I40-6,获得基线 NLL/ECE/MCE/BS、cov、sharp 与 epi/ale 概览,建立风险预算。 - Mx-63 离线校准拟合
在 calib 上调用 I40-5,选择 method ∈ {temperature, platt, isotonic, dirichlet, variance-scaling, quantile-calib};保存 CalibCard 与 fingerprint。 - Mx-64 验证与对比
于 val 重评:ΔECE = ECE_before - ECE_after 等;若 Δ 未达阈值或出现过拟合迹象(NLL 上升),则回退并更换方法/分桶。 - Mx-65 在线对齐与灰度
将 CalibCard 发布至 canary;以滑窗计算 ECE_stream 与 cov_stream,并联动 TS.*;不达标触发回退。 - Mx-66 存档与审计
输出 CalibReport、ScoreReport、CalibCard、可靠性图快照与 fingerprint,归档审计轨。
VII. 验证与测试矩阵
- 温度缩放有效性:合成过置信分类器,要求 NLL 与 ECE 显著下降且 accuracy 基本不变。
- 保序校准稳健性:对不同 B 与不同采样密度验证 isotonic 单调性与泛化,限制 MCE <= tau_MCE。
- 回归区间正确性:对噪声方差已知的数据,cov 接近 1 - delta_conf,并报告 sharp 与 CRPS(可选)。
- 集成分解一致性:在受控数据集上增加模型欠拟合程度,var_epi 应随之上升而 var_ale 基本稳定。
- OOD 响应:对分布外样本,entropy 与 MI 上升,阈值越过即告警但不过度触发(漏警/误警权衡由 Core.Errors 指定)。
- 在线漂移回路:当 ECE_stream 超过 tau_ECE 持续 W 窗口,触发再校准剧本并生成 work_item。
VIII. 交叉引用与依赖
与第3章之 S42-1 风险最小化与误差分解一致;与第6章在线/离线一致性共用 EnvLock、anchor、TS.* 与回退编排;与《EFT.WP.Methods.Repro》第8章评分与门限对接;谱口径与 S_xx(f) 见第3章与《Core.Metrology》。IX. 风险、限制与开放问题
- 校准的域依赖性:在分布漂移或标签分布改变(prior shift)下,temperature 与 platt 可能失效;需结合再加权或先验校正。
- 结构化不确定性:仅以软概率刻画的模型可能低估长尾风险;建议在关键域引入保守区间或 conformal 方法。
- 资源与延迟预算:集成与采样方法增加 TS.latency 与成本;需在 score 中加权并提供降级路径(例如从 K 降为 K')。
- 可解释性与合规:高温度可能掩盖过拟合;报告中须附可靠性图与 ECE 分桶细节以满足审计。
X. 交付件与版本管理
- 交付件:
- CalibReport.json(含 method, params, ECE/MCE/NLL/BS, cov, sharp, delta_conf, B, pass);
- CalibCard.yaml(含 fingerprint、数据切分、映射定义与版本);
- ReliabilityPlot 与 CoveragePlot 快照;
- 更新后的 ScoreReport 与上线灰度评测记录。
- 版本策略:
任何改变 calib.method、分桶数 B、delta_conf、variance/quantile 口径、集成规模 K、或影响 p_hat 的算子/量化变更,须提升次版本;若 C(·) 结构改变(如 isotonic → dirichlet),须提升主版本并在附录C登记 CHANGELOG 与 fingerprint = hash( CalibCard )。
版权与许可(CC BY 4.0)
版权声明:除另有说明外,《能量丝理论》(含文本、图表、插图、符号与公式)的著作权由作者(“屠广林”先生)享有。
许可方式:本作品采用 Creative Commons 署名 4.0 国际许可协议(CC BY 4.0)进行许可;在注明作者与来源的前提下,允许为商业或非商业目的进行复制、转载、节选、改编与再分发。
署名格式(建议):作者:“屠广林”;作品:《能量丝理论》;来源:energyfilament.org;许可证:CC BY 4.0。
首次发布: 2025-11-11|当前版本:v5.1
协议链接:https://creativecommons.org/licenses/by/4.0/