目录文档-技术白皮书16-EFT.WP.Methods.Cleaning v1.0

第8章 异常、漂移与离群治理


一句话目标:在 tau_mono 上对异常、漂移与离群进行检测、标注与处置,保持量纲一致与因果有序,最小化误报与回归风险,并将处置决策与 manifest、SLO 面板打通。


I. 范围与对象

  1. 适用对象
    • 经过第5章时间对齐、第6章路径与到达时校核、第7章缺失与插补处理后的数据集 D_clean.pre_anom。
    • 关键字段:ts,tau_mono,ell,T_arr 两口径与 delta_form,度量字段 x,质量与不确定度 q_score、u(x)、u_imp,以及通道指标 chan/cap/q_len。
  2. 目标产物
    产出 D_anom = D_clean.pre_anom ⊕ tags,其中 tags ∈ {point_anom, contextual_anom, collective_anom, drift_segment, saturation, stuck, spike};生成 report_anom 与 manifest.anomaly;更新质量与发布策略。

II. 名词与变量(记忆锚点)

  1. 异常与离群
    • 点异常:point_anom(单点显著偏离基线)。
    • 语境异常:contextual_anom(在给定 RefCond 或季节内偏离)。
    • 集合异常:collective_anom(一段落的行为改变)。
    • 离群标签:outlier,与异常并非等价,需依处置策略区分。
  2. 漂移
    • 分布漂移:drift(P_t(x) 与参考分布 P_ref(x) 的偏离)。
    • 概念漂移:E[ y | x ] 关系改变(模型场景使用)。
    • 通道漂移:q_len、rho、W_q 的系统性变化。
  3. 基线与统计量
    • 均值与方差:mu,sigma;中位与 MAD:med,MAD;分位数:Q1/Q3,IQR = Q3 - Q1。
    • 指标:P99,KS,D_KL,PSI。

III. 公设(P108-*)


IV. 最小方程(S108-*)


V. 清洗流程(M10-8 异常、漂移与离群)

  1. 基线与窗口设定
    选择滚动或季节窗口 W;在 tau_mono 上估计 mu/sigma/med/MAD/Q1/Q3;为分布估计选择分箱或核密度。
  2. 候选检测
    并行运行 z_robust、IQR、spike/saturation、CUSUM/变点、delta_form、drift_metrics(D_KL/KS/PSI)。
  3. 标签合成与去抖
    使用多判据投票或置信融合生成 tags;对瞬时标签进行形态学闭运算(最小持续时长与最小间隔)。
  4. 处置策略
    • quarantine(隔离)、downweight(降权)、repair(仅对可逆异常,如重复帧)、pass_through(标注后发布)。
    • 更新 q_score 与 w_imp:q_score' = q_score * g(tags)。
  5. 合同化与回退
    契约失败触发回退:降级发布(摘要或延迟)、切换稳健估计、触发人工审计。
  6. 落盘与追溯
    写入 manifest.anomaly = {methods, params, windows, thresholds, drift_ref, vote_rule, latency_p99, FP/FN_est};更新 signature 与 hash_sha256(blob)。

VI. 契约与断言(本章必过项)


VII. 实现绑定(I10-8)

  1. 接口原型
    • detect_outlier(ds, method, fields) -> tags
    • detect_drift(ds_ref, ds_cur, metrics) -> drift_report
    • fuse_anomaly_tags(tags_list, rule) -> tags_fused
    • mitigate_anomaly(ds, tags, policy) -> ds', effects
    • audit_anomaly(ds, tags) -> report_anom
  2. 前置条件
    第4章单位与量纲一致;第5章时基对齐;第6章路径与到达时合规;第7章缺失显式与受控插补。
  3. 不变量与后置
    不改变 ts/ell 的单调性;所有处置在 manifest 可重放;q_score 与不确定度同步更新。
  4. 失败语义
    E_DRIFT_REF_MISSING,E_DIM_THRESHOLD_INVALID,E_LATENCY_SLO_BREACH,E_RULE_CONFLICT。

VIII. 交叉引用


IX. 质量度量与风控

  1. 核心指标
    • 检测延迟:detect_latency_p50/p95/p99
    • 标注强度:anom_rate = mean( 1_{tags ≠ ∅} )
    • 漂移幅度:D_KL,KS,PSI
    • 影响面:affected_share = fraction_of_downstream_ops_using_tagged
    • 误报/漏报估计:FP_hat,FN_hat(基于保留黄金集或事后核验)
    • 通道健康:rho,W_q,drop_rate,retry_rate
  2. 告警建议
    • anom_rate > tol_anom → 启用强降权或隔离
    • D_KL > tol_kl ∨ KS > tol_ks → 切换稳健基线或回退版本
    • detect_latency_p99 > SLO.detect_p99 → 降级检测复杂度或扩容

X. 边界与特例


XI. 审计与面板字段


小结
本章给出了在统一时基与量纲口径下的异常、漂移与离群治理框架:以稳健统计与变点方法形成多路检测,以 delta_form 作为到达时强信号,以标签与不确定度伴随处置,贯通 manifest、SLO 面板与流式背压护栏。由此确保清洗产物在面对突发扰动与缓慢漂移时,仍能维持可发布与可审计的质量基线。


版权与许可(CC BY 4.0)

版权声明:除另有说明外,《能量丝理论》(含文本、图表、插图、符号与公式)的著作权由作者(“屠广林”先生)享有。
许可方式:本作品采用 Creative Commons 署名 4.0 国际许可协议(CC BY 4.0)进行许可;在注明作者与来源的前提下,允许为商业或非商业目的进行复制、转载、节选、改编与再分发。
署名格式(建议):作者:“屠广林”;作品:《能量丝理论》;来源:energyfilament.org;许可证:CC BY 4.0。

首次发布: 2025-11-11|当前版本:v5.1
协议链接:https://creativecommons.org/licenses/by/4.0/