目录文档-技术白皮书18-EFT.WP.Methods.CrossStats v1.0

第7章 漂移、分布对齐与基线更新(W1/KL/PSI)


一句话目标:以 W1/KL/PSI 为核心漂移度量,建立“检测→对齐→基线更新”的闭环,并将结果落盘到 manifest.stats.drift.* 以支撑长期稳定的跨模态统计服务。


I. 范围与对象

  1. 范围
    适用于离线批次与在线流式的分布漂移识别、告警、自动或人工准入的分布对齐,以及参考基线的稳健更新。覆盖特征分布、输出分布与残差分布三类对象。
  2. 对象
    • 输入:参考窗口数据 D_ref = { x_i }、当前窗口数据 D_cur = { x'_j }、时间窗口 Delta_t、阈值策略 rules、可选标签 y、到达时信息 T_arr。
    • 输出:drift_report(含 W1, KL, PSI, 统计检验结果、显著性与置信边界)、align_map phi 或权重 w(x)、更新后的 baseline、审计清单。
    • 约束:所有窗口在 tau_mono 上评估,对外以 ts 发布;若漂移度量依赖 T_arr,并行记录两口径与 delta_form。

II. 名词与变量


III. 公设 P307-*


IV. 最小方程 S307-*

  1. S307-1(Wasserstein-1 距离)
    • 定义:W1(P_ref, P_cur) = inf_{pi ∈ Π(P_ref, P_cur)} ( ∫ || x - y || d pi(x,y) )。
    • 1D 样本估计(排序后):W1_hat = ( 1 / n ) * ( ∑_{i=1}^n | x_(i) - x'_(i) | )。
  2. S307-2(Kullback–Leibler 散度)
    • 连续型:KL(P_ref || P_cur) = ( ∫ log( p_ref(x) / p_cur(x) ) p_ref(x) dx )。
    • 离散/分箱:KL = ( ∑_b p_b * log( p_b / q_b ) )。
  3. S307-3(Population Stability Index, PSI)
    分箱 b=1..B:PSI = ( ∑_b ( p_b - q_b ) * log( p_b / q_b ) ),其中 p_b 为参考占比,q_b 为当前占比。
  4. S307-4(密度比与重要性加权)
    w(x) = P_ref(x) / P_cur(x);估计可用对数几率回归密度比:令 r(x) = log( P_ref(x) / P_cur(x) ),最小化 logistic_loss(r)。
  5. S307-5(分布对齐映射)
    phi* = argmin_phi D( phi#P_cur , P_ref ),D ∈ {W1, KL, JS};1D 单调对齐常用分位数映射 phi = F_ref^{-1} ∘ F_cur。
  6. S307-6(基线时间更新)
    指数平滑更新:P_ref^(t+1) = ( 1 - lambda ) * P_ref^(t) + lambda * P_cur^(t),其中 lambda 由漂移等级与样本量调节。
  7. S307-7(到达时两口径差)
    当特征含 T_arr:delta_form = | ( 1 / c_ref ) * ( ∫ n_eff d ell ) - ( ∫ ( n_eff / c_ref ) d ell ) |。

V. 统计流程 M30-7(检测→对齐→更新→审计)


VI. 契约与断言(C30-71x)


VII. 实现绑定 I30-*

不变量:sum(w)/N ≈ 1;lambda ∈ [0,1];D_after ≤ D_before;alpha_spending 与本卷第6章的预算一致(若在线监测联动告警)。


VIII. 交叉引用


IX. 质量与风控


小结

本章以 W1/KL/PSI 建立可审计的漂移检测,提供分位数/OT 对齐与密度比重加权两条对齐路径,并通过门控的 Update 策略稳健更新 P_ref。所有步骤均在 manifest.stats.drift.* 追溯与签名,确保跨模态统计的一致性与可回退性。

版权与许可(CC BY 4.0)

版权声明:除另有说明外,《能量丝理论》(含文本、图表、插图、符号与公式)的著作权由作者(“屠广林”先生)享有。
许可方式:本作品采用 Creative Commons 署名 4.0 国际许可协议(CC BY 4.0)进行许可;在注明作者与来源的前提下,允许为商业或非商业目的进行复制、转载、节选、改编与再分发。
署名格式(建议):作者:“屠广林”;作品:《能量丝理论》;来源:energyfilament.org;许可证:CC BY 4.0。

首次发布: 2025-11-11|当前版本:v5.1
协议链接:https://creativecommons.org/licenses/by/4.0/