18-EFT.WP.Methods.CrossStats v1.0 | 第7章漂移、分布对齐与基线更新（W1/KL/PSI）

目录／文档-技术白皮书（V5.05）／ 18-EFT.WP.Methods.CrossStats v1.0

第7章漂移、分布对齐与基线更新（W1/KL/PSI）

一句话目标：以 W1/KL/PSI 为核心漂移度量，建立“检测→对齐→基线更新”的闭环，并将结果落盘到 manifest.stats.drift.* 以支撑长期稳定的跨模态统计服务。

I. 范围与对象

范围
适用于离线批次与在线流式的分布漂移识别、告警、自动或人工准入的分布对齐，以及参考基线的稳健更新。覆盖特征分布、输出分布与残差分布三类对象。
对象
- 输入：参考窗口数据 D_ref = { x_i }、当前窗口数据 D_cur = { x'_j }、时间窗口 Delta_t、阈值策略 rules、可选标签 y、到达时信息 T_arr。
- 输出：drift_report（含 W1, KL, PSI, 统计检验结果、显著性与置信边界）、align_map phi 或权重 w(x)、更新后的 baseline、审计清单。
- 约束：所有窗口在 tau_mono 上评估，对外以 ts 发布；若漂移度量依赖 T_arr，并行记录两口径与 delta_form。

II. 名词与变量

数据与分布：P_ref(x), P_cur(x)，经验分布 hat{P}；特征子集 X_S，维度 d。
距离与散度：W1(P_ref, P_cur)，KL(P_ref || P_cur)，PSI(P_ref, P_cur)。
对齐与权重：映射 phi : X → X，推送测度 phi#P_cur，密度比 w(x) = P_ref(x) / P_cur(x)。
阈值与策略：tol_w1, tol_kl, tol_psi，告警等级 sev ∈ {low, med, high}，平滑系数 lambda ∈ [0,1]。
基线：时间索引的参考分布 P_ref^(t)，更新算子 Update(·)。

III. 公设 P307-*

P307-1（测度显式）：任何距离/散度计算须声明测度与域，离散情形须给定分箱或核带宽。
P307-2（多尺度一致）：一维边缘与多维联合的漂移需分别评估；联合评估优先于边缘加总。
P307-3（样本与置信）：漂移判定必须报告样本量、重采样区间或渐近界的置信区间。
P307-4（防止过拟合对齐）：对齐映射不得使用未来窗口信息；训练/验证切分固定并可复现。
P307-5（时基与到达时）：所有统计窗口在 tau_mono 上滚动；若度量依赖 T_arr，并记录 delta_form 与阈值断言。
P307-6（可回退）：对齐或基线更新失败时，系统必须回退到上一次已签名的 baseline 与策略。

IV. 最小方程 S307-*

S307-1（Wasserstein-1 距离）
- 定义：W1(P_ref, P_cur) = inf_{pi ∈ Π(P_ref, P_cur)} ( ∫ || x - y || d pi(x,y) )。
- 1D 样本估计（排序后）：W1_hat = ( 1 / n ) * ( ∑_{i=1}^n | x_(i) - x'_(i) | )。
S307-2（Kullback–Leibler 散度）
- 连续型：KL(P_ref || P_cur) = ( ∫ log( p_ref(x) / p_cur(x) ) p_ref(x) dx )。
- 离散/分箱：KL = ( ∑_b p_b * log( p_b / q_b ) )。
S307-3（Population Stability Index, PSI）
分箱 b=1..B：PSI = ( ∑_b ( p_b - q_b ) * log( p_b / q_b ) )，其中 p_b 为参考占比，q_b 为当前占比。
S307-4（密度比与重要性加权）
w(x) = P_ref(x) / P_cur(x)；估计可用对数几率回归密度比：令 r(x) = log( P_ref(x) / P_cur(x) )，最小化 logistic_loss(r)。
S307-5（分布对齐映射）
phi* = argmin_phi D( phi#P_cur , P_ref )，D ∈ {W1, KL, JS}；1D 单调对齐常用分位数映射 phi = F_ref^{-1} ∘ F_cur。
S307-6（基线时间更新）
指数平滑更新：P_ref^(t+1) = ( 1 - lambda ) * P_ref^(t) + lambda * P_cur^(t)，其中 lambda 由漂移等级与样本量调节。
S307-7（到达时两口径差）
当特征含 T_arr：delta_form = | ( 1 / c_ref ) * ( ∫ n_eff d ell ) - ( ∫ ( n_eff / c_ref ) d ell ) |。

V. 统计流程 M30-7（检测→对齐→更新→审计）

就绪与分窗
在 tau_mono 上滚动窗口 Delta_t 切分 D_ref, D_cur；冻结分箱或核带宽；若涉及 T_arr，同步两口径与 delta_form。
漂移检测
计算 W1/KL/PSI，并通过重采样或渐近法给出置信区间；可辅以 KS 或能量距离检验以形成二次证据。
决策与分级
根据 tol_w1/tol_kl/tol_psi 与功效评估打分并赋值 sev；若 sev=high 且连续 L 个窗口超阈则进入对齐/更新阶段。
分布对齐
选择 phi（分位数/单调回归/OT 映射）或加权 w(x)（IPW/密度比学习），在验证切片上评估 D( phi#P_cur , P_ref )。
基线更新
通过 lambda 控制的指数平滑或门控迁移更新 P_ref；必要时分层更新（按人群/设备/模态）。
审计与发布
生成 drift_report 与 manifest.stats.drift.*：度量、阈值、phi/w 摘要、验证指标、lambda、更新原因、签名与回退点。

VI. 契约与断言（C30-71x）

C30-711（样本就绪）：n_ref ≥ n_min ∧ n_cur ≥ n_min。
C30-712（阈值判定）：W1 ≤ tol_w1 ∧ KL ≤ tol_kl ∧ PSI ≤ tol_psi 至少满足其一或通过门控逻辑；否则置 drift=true。
C30-713（稳健性）：跨分箱/带宽敏感性 Δmetric ≤ tol_sens。
C30-714（对齐有效）：对齐后 D( phi#P_cur , P_ref ) ≤ rho * D( P_cur , P_ref )，rho ∈ (0,1)。
C30-715（权重稳定）：var(w) ≤ tol_wvar 且 max(w) ≤ w_max；( ∑ w_i ) / N ≈ 1。
C30-716（更新门控）：仅当连续 L ≥ L_min 窗口 drift=true 且对齐通过验证，才允许 Update。
C30-717（到达时差）：若用到 T_arr，断言 delta_form ≤ tol_Tarr。
C30-718（可回退）：rollback_point 存在且可重放；更新前后 hash_sha256(baseline) 记录完备。

VII. 实现绑定 I30-*

I30-71 detect_drift(ref, cur, metrics={"W1","KL","PSI"}, bins=None, bandwidth=None, seed) -> drift_report
返回度量、置信区间、功效近似与显著性标记。
I30-72 learn_align_map(ref, cur, method, constraints) -> phi
method ∈ {quantile, isotonic, spline, ot_barycentric}；constraints 支持单调、Lipschitz、有界性。
I30-73 learn_density_ratio(ref, cur, method) -> w(x)
method ∈ {logistic, kliep, ulsif}；返回权重与诊断。
I30-74 apply_alignment(ds, phi=None, w=None) -> ds'
对齐映射或重加权的应用与落盘。
I30-75 update_baseline(baseline, cur, lambda, policy) -> baseline'
policy ∈ {exp_smooth, gated_transfer, stratified}。
I30-76 evaluate_drift_contracts(report, rules) -> contract_report
检查 C30-71x 并生成审计证据。
I30-77 emit_drift_manifest(report, phi_or_w, baseline, policy) -> manifest.stats.drift
输出方法口径、阈值、验证结果与签名。

不变量：sum(w)/N ≈ 1；lambda ∈ [0,1]；D_after ≤ D_before；alpha_spending 与本卷第6章的预算一致（若在线监测联动告警）。

VIII. 交叉引用

多重比较与在线告警整合：见本卷第6章（FWER/FDR/Sequential）。
清洗的时基、到达时两口径与发布冻结：见《Methods.Cleaning v1.0》第5、6、10章。
成像域的校准迁移与场景自适应：见《Methods.Imaging v1.0》第9、10、14章。
因果影响评估与重加权：见本卷第10章（IPW/DR/IV）。

IX. 质量与风控

SLI/SLO（示例）
drift_detection_latency_ms_p99 ≤ SLO；false_alarm_rate ≤ alpha_alarm；miss_drift_rate ≤ beta_alarm；alignment_residual = D( phi#P_cur , P_ref )；weight_variance ≤ tol_wvar。
风控与回退
阈值不确定时采用保守策略（提高 tol_* 的置信下界）；phi 不稳定时回退至加权法；连续告警且无法对齐时触发“只读模式”与人工复核；任何 C30-714/715/717 失败触发回滚。

小结

本章以 W1/KL/PSI 建立可审计的漂移检测，提供分位数/OT 对齐与密度比重加权两条对齐路径，并通过门控的 Update 策略稳健更新 P_ref。所有步骤均在 manifest.stats.drift.* 追溯与签名，确保跨模态统计的一致性与可回退性。

版权与许可：除另有说明外，《能量丝理论》（含文本、图表、插图、符号与公式）的著作权由作者（屠广林）享有。
许可方式（CC BY 4.0）：在注明作者与来源的前提下，允许复制、转载、节选、改编与再分发。
署名格式（建议）：作者：屠广林｜作品：《能量丝理论》｜来源：energyfilament.org｜许可证：CC BY 4.0
验证召集： 作者独立自费、无雇主无资助；下一阶段将优先在最愿意公开讨论、公开复现、公开挑错的环境中推进落地，不限国家。欢迎各国媒体与同行抓住窗口组织验证，并与我们联系。
版本信息： 首次发布：2025-11-11 ｜当前版本：v6.0+5.05