目录 / 文档-技术白皮书 / 18-EFT.WP.Methods.CrossStats v1.0
第9章 校准迁移与域自适应(Platt/Isotonic/BBQ)
一句话目标:在分布偏移与多域迁移场景下,提供从评分到概率的单调校准与可审计迁移映射,使 ECE/NLL/Brier 等指标在新域达到既定 SLO。
I. 范围与对象
- 范围
适用于二分类与多分类模型在跨域(src → dst)、跨时间、跨设备与跨流量分层的概率校准与迁移;覆盖静态离线与在线流式增量校准。 - 对象
- 输入:源域验证集 D_src = {(s_i, y_i, x_i)}、目标域少量带标注集或伪标签集 D_dst、基模型输出 s 或 z(logits)、候选方法 method ∈ {Platt, Isotonic, BBQ, Temp, Vector/Dirichlet}、重要性权重 w_i = p_dst(x_i)/p_src(x_i)(可选)。
- 输出:单调映射 f_hat 与参数、cal_metrics = {ECE, NLL, Brier, KS}、契约报告与 manifest.stats.calib.*。
- 约束:在 tau_mono 上评估窗口,发布以 ts 对齐;如指标依赖 T_arr,并行记录两口径与 delta_form。
II. 名词与变量
- 评分与概率:s ∈ R(分数)、z ∈ R^C(logits)、p_hat = sigmoid(a s + b)、p = softmax(z / T)。
- 权重与分箱:w_i ≥ 0、bin k、n_k、alpha, beta(Beta 先验)。
- 指标与误差:ECE, NLL, Brier, ACE,U = k * u_c。
- 迁移与偏移:p_src(x), p_dst(x), ps(x)(倾向或密度比代理),drift_level。
- 约束:单调性 f' ≥ 0、概率单纯形 ∑_c p_c = 1、温度 T > 0。
III. 公设 P309-*
- P309-1(单调与排序保真):标量校准映射 f 必须非降,保持评分秩序不反转。
- P309-2(校准分离):校准只修正概率刻度,不改变决策阈值学习器;评估以独立或交叉验证集进行。
- P309-3(权重一致):在 covariate shift 场景,目标是最小化加权风险;若未能稳定估计 w_i,回退到分层匹配或守恒范围。
- P309-4(多类守恒):多类校准后概率位于单纯形,| ∑_c p_c - 1 | ≤ tol_sum。
- P309-5(时间与到达时):统计窗口统一在 tau_mono,对外 ts;若用到 T_arr,并行两口径并断言 delta_form。
- P309-6(审计与可回退):任何上线校准须提供 manifest.stats.calib.* 与回退映射 f_prev。
- P309-7(过拟合防护):分箱/参数自由度受限,需跨折验证并设最小样本/分箱计数。
IV. 最小方程 S309-*
- S309-1(Platt scaling)
- p = sigmoid( a * s + b ),(a, b) = argmin ∑_i w_i * ( - y_i * log p_i - (1 - y_i) * log(1 - p_i) )。
- 单调充要条件:a ≥ 0(若 s 为正相关评分)。
- S309-2(Isotonic regression, PAV)
- 寻找 f 使 ∑_i w_i * ( y_i - f(s_i) )^2 最小,约束 f 非降;解为分段常数,PAV 算法合并违例相邻块。
- 平滑可用拉普拉斯修正:f_k = ( ∑_{i∈bin k} w_i y_i + lambda ) / ( ∑_{i∈bin k} w_i + 2 lambda )。
- S309-3(BBQ:Bayesian Binning into Quantiles)
- 将 s 量化为 K 个分位箱,箱内后验均值:p_k = ( alpha + ∑_{i∈k} w_i y_i ) / ( alpha + beta + ∑_{i∈k} w_i );
- 选择 K 以最小化加权 NLL 的贝叶斯信息准则。
- S309-4(Temperature / Vector / Dirichlet,多类)
- 温度:p = softmax( z / T ),T = argmin_T ∑_i w_i * ( - log p_{y_i} ),T > 0。
- 向量缩放:p = softmax( W z + b );W, b 以加权 NLL 学习,约束保持秩序。
- Dirichlet 校准(简式):学习 g(p_hat) = softmax( A * log p_hat + b ) 以最小化加权 NLL。
- S309-5(重要性加权风险)
- R_dst(f) = E_{(x,y)∼p_src} [ w(x) * l( f(s(x)), y ) ],w(x) = p_dst(x)/p_src(x);
- 约束:W_norm = ( ∑ w_i ) / N ≈ 1,var(w) ≤ tol_wvar。
- S309-6(校准误差度量)
- ECE = ∑_{k=1}^K ( n_k / n ) * | acc(k) - conf(k) |,加权版用 w_i 替代计数;
- Brier = ( 1 / n ) * ∑ ( y_i - p_i )^2,NLL = - ( 1 / n ) * ∑ log p_{i,y_i}。
V. 统计流程 M30-9(就绪→估计→验证→上线→落盘)
- 就绪
对齐时间基(tau_mono),构建源/目标切片与分层;估计或启发式近似 w_i;设定主指标 NLL 与守护指标 ECE/Brier。 - 方法选择与拟合
- 二分类优先顺序:Platt → Isotonic → BBQ;多类优先:Temperature → Vector/Dirichlet。
- 采用加权目标最小化,锁定单调与正则(lambda、最小箱宽与最小计数)。
- 交叉验证与过拟合防护
K 折或时间分块验证,报告 delta_metric = metric_post - metric_pre 与方差;若 delta_metric 不达阈值则回退。 - 上线前合规
评估 W_norm、var(w)、单调性、概率和守恒;生成回退映射与灰度策略。 - 上线与监测
分层采样的在线 ECE/NLL 面板;朝向漂移自动触发再分箱或温度再估计。 - 落盘
输出 f_hat、参数、cal_metrics、w_i 统计摘要、manifest.stats.calib.* 与签名。
VI. 契约与断言(C30-91x)
- C30-911(单调性):f 非降;Platt 断言 a ≥ 0。
- C30-912(最小样本/分箱):n_k ≥ n_min_bin 且 K ≤ K_max;BBQ 的 alpha, beta ≥ alpha_min。
- C30-913(加权稳定性):W_norm ≈ 1,var(w) ≤ tol_wvar,max(w) ≤ w_max。
- C30-914(多类守恒):| ∑_c p_c - 1 | ≤ tol_sum,T > 0。
- C30-915(改进门槛):NLL_post ≤ NLL_pre - tol_nll 或 ECE_post ≤ ECE_pre - tol_ece;否则回退。
- C30-916(时间与到达时):若指标依赖 T_arr,断言 delta_form ≤ tol_Tarr。
- C30-917(再训练节流):滚动再估计不高于 freq_max,且每次变更需留存 TraceID 与审计记录。
- C30-918(秩序保真):校准前后 AUC 下降不超过 tol_auc_drop。
VII. 实现绑定 I30-*
- I30-91 calibration_transfer(src, dst, method, weights=None, params) -> f_hat
- I30-92 fit_platt(scores, labels, weights) -> {a, b}
- I30-93 fit_isotonic(scores, labels, weights, lambda, n_min_bin) -> f_hat
- I30-94 fit_bbq(scores, labels, weights, K_max, alpha, beta) -> {bins, p_k}
- I30-95 temperature_scaling(logits, labels, weights) -> T
- I30-96 dirichlet_calibration(p_hat, labels, weights, reg) -> {A, b}
- I30-97 apply_calibration(f_hat, scores_or_logits) -> probs
- I30-98 evaluate_calibration(probs, labels, weights) -> {ECE, NLL, Brier, KS}
- I30-99 enforce_calibration_contracts(report, rules) -> contract_report
- I30-90 time_align_for_stats(ds, sync_ref) -> ds'(携带 offset/skew/J 与 T_arr 两口径)
不变量:sum(weights)/N ≈ 1;probs ∈ simplex;monotone(f_hat);manifest 含版本与回退指针。
VIII. 交叉引用
- 抽样权重与重要性加权:见本卷第3章。
- 多重比较与序贯预算(校准方案对多指标影响的控制):见本卷第6章。
- 漂移检测与触发再校准:见本卷第7章。
- A/B 守护指标与上线闸门:见本卷第8章。
- 时基与到达时两口径:见《Methods.Cleaning v1.0》第5、6章。
IX. 质量与风控
- SLI/SLO(示例)
ECE_post_p95 ≤ SLO_ece;NLL_post ≤ NLL_pre - tol_nll;latency_ms_p99 ≤ SLO_latency;recalib_frequency ≤ freq_max。 - 风控
触发漂移但 var(w) 失稳:降级为温度缩放;BBQ 分箱稀疏:回退到 Platt;多类 tol_sum 违规:强制归一;tol_auc_drop 违规:阻塞发布并回滚。
小结
本章给出 Platt、Isotonic、BBQ 与多类温度/向量/Dirichlet 校准在跨域迁移下的统一口径、权重化目标与合规模型;通过 C30-91x 契约与 manifest.stats.calib.* 审计,实现可复现、可回退、可监测的校准迁移闭环。版权与许可(CC BY 4.0)
版权声明:除另有说明外,《能量丝理论》(含文本、图表、插图、符号与公式)的著作权由作者(“屠广林”先生)享有。
许可方式:本作品采用 Creative Commons 署名 4.0 国际许可协议(CC BY 4.0)进行许可;在注明作者与来源的前提下,允许为商业或非商业目的进行复制、转载、节选、改编与再分发。
署名格式(建议):作者:“屠广林”;作品:《能量丝理论》;来源:energyfilament.org;许可证:CC BY 4.0。
首次发布: 2025-11-11|当前版本:v5.1
协议链接:https://creativecommons.org/licenses/by/4.0/