目录文档-技术白皮书18-EFT.WP.Methods.CrossStats v1.0

第9章 校准迁移与域自适应(Platt/Isotonic/BBQ)


一句话目标:在分布偏移与多域迁移场景下,提供从评分到概率的单调校准与可审计迁移映射,使 ECE/NLL/Brier 等指标在新域达到既定 SLO。


I. 范围与对象

  1. 范围
    适用于二分类与多分类模型在跨域(src → dst)、跨时间、跨设备与跨流量分层的概率校准与迁移;覆盖静态离线与在线流式增量校准。
  2. 对象
    • 输入:源域验证集 D_src = {(s_i, y_i, x_i)}、目标域少量带标注集或伪标签集 D_dst、基模型输出 s 或 z(logits)、候选方法 method ∈ {Platt, Isotonic, BBQ, Temp, Vector/Dirichlet}、重要性权重 w_i = p_dst(x_i)/p_src(x_i)(可选)。
    • 输出:单调映射 f_hat 与参数、cal_metrics = {ECE, NLL, Brier, KS}、契约报告与 manifest.stats.calib.*。
    • 约束:在 tau_mono 上评估窗口,发布以 ts 对齐;如指标依赖 T_arr,并行记录两口径与 delta_form。

II. 名词与变量


III. 公设 P309-*


IV. 最小方程 S309-*

  1. S309-1(Platt scaling)
    • p = sigmoid( a * s + b ),(a, b) = argmin ∑_i w_i * ( - y_i * log p_i - (1 - y_i) * log(1 - p_i) )。
    • 单调充要条件:a ≥ 0(若 s 为正相关评分)。
  2. S309-2(Isotonic regression, PAV)
    • 寻找 f 使 ∑_i w_i * ( y_i - f(s_i) )^2 最小,约束 f 非降;解为分段常数,PAV 算法合并违例相邻块。
    • 平滑可用拉普拉斯修正:f_k = ( ∑_{i∈bin k} w_i y_i + lambda ) / ( ∑_{i∈bin k} w_i + 2 lambda )。
  3. S309-3(BBQ:Bayesian Binning into Quantiles)
    • 将 s 量化为 K 个分位箱,箱内后验均值:p_k = ( alpha + ∑_{i∈k} w_i y_i ) / ( alpha + beta + ∑_{i∈k} w_i );
    • 选择 K 以最小化加权 NLL 的贝叶斯信息准则。
  4. S309-4(Temperature / Vector / Dirichlet,多类)
    • 温度:p = softmax( z / T ),T = argmin_T ∑_i w_i * ( - log p_{y_i} ),T > 0。
    • 向量缩放:p = softmax( W z + b );W, b 以加权 NLL 学习,约束保持秩序。
    • Dirichlet 校准(简式):学习 g(p_hat) = softmax( A * log p_hat + b ) 以最小化加权 NLL。
  5. S309-5(重要性加权风险)
    • R_dst(f) = E_{(x,y)∼p_src} [ w(x) * l( f(s(x)), y ) ],w(x) = p_dst(x)/p_src(x);
    • 约束:W_norm = ( ∑ w_i ) / N ≈ 1,var(w) ≤ tol_wvar。
  6. S309-6(校准误差度量)
    • ECE = ∑_{k=1}^K ( n_k / n ) * | acc(k) - conf(k) |,加权版用 w_i 替代计数;
    • Brier = ( 1 / n ) * ∑ ( y_i - p_i )^2,NLL = - ( 1 / n ) * ∑ log p_{i,y_i}。

V. 统计流程 M30-9(就绪→估计→验证→上线→落盘)

  1. 就绪
    对齐时间基(tau_mono),构建源/目标切片与分层;估计或启发式近似 w_i;设定主指标 NLL 与守护指标 ECE/Brier。
  2. 方法选择与拟合
    • 二分类优先顺序:Platt → Isotonic → BBQ;多类优先:Temperature → Vector/Dirichlet。
    • 采用加权目标最小化,锁定单调与正则(lambda、最小箱宽与最小计数)。
  3. 交叉验证与过拟合防护
    K 折或时间分块验证,报告 delta_metric = metric_post - metric_pre 与方差;若 delta_metric 不达阈值则回退。
  4. 上线前合规
    评估 W_norm、var(w)、单调性、概率和守恒;生成回退映射与灰度策略。
  5. 上线与监测
    分层采样的在线 ECE/NLL 面板;朝向漂移自动触发再分箱或温度再估计。
  6. 落盘
    输出 f_hat、参数、cal_metrics、w_i 统计摘要、manifest.stats.calib.* 与签名。

VI. 契约与断言(C30-91x)


VII. 实现绑定 I30-*

不变量:sum(weights)/N ≈ 1;probs ∈ simplex;monotone(f_hat);manifest 含版本与回退指针。


VIII. 交叉引用


IX. 质量与风控


小结

本章给出 Platt、Isotonic、BBQ 与多类温度/向量/Dirichlet 校准在跨域迁移下的统一口径、权重化目标与合规模型;通过 C30-91x 契约与 manifest.stats.calib.* 审计,实现可复现、可回退、可监测的校准迁移闭环。

版权与许可(CC BY 4.0)

版权声明:除另有说明外,《能量丝理论》(含文本、图表、插图、符号与公式)的著作权由作者(“屠广林”先生)享有。
许可方式:本作品采用 Creative Commons 署名 4.0 国际许可协议(CC BY 4.0)进行许可;在注明作者与来源的前提下,允许为商业或非商业目的进行复制、转载、节选、改编与再分发。
署名格式(建议):作者:“屠广林”;作品:《能量丝理论》;来源:energyfilament.org;许可证:CC BY 4.0。

首次发布: 2025-11-11|当前版本:v5.1
协议链接:https://creativecommons.org/licenses/by/4.0/