目录 / 文档-技术白皮书 / 16-EFT.WP.Methods.Cleaning v1.0
一句话目标:在 tau_mono 上对异常、漂移与离群进行检测、标注与处置,保持量纲一致与因果有序,最小化误报与回归风险,并将处置决策与 manifest、SLO 面板打通。
I. 范围与对象
- 适用对象
- 经过第5章时间对齐、第6章路径与到达时校核、第7章缺失与插补处理后的数据集 D_clean.pre_anom。
- 关键字段:ts,tau_mono,ell,T_arr 两口径与 delta_form,度量字段 x,质量与不确定度 q_score、u(x)、u_imp,以及通道指标 chan/cap/q_len。
- 目标产物
产出 D_anom = D_clean.pre_anom ⊕ tags,其中 tags ∈ {point_anom, contextual_anom, collective_anom, drift_segment, saturation, stuck, spike};生成 report_anom 与 manifest.anomaly;更新质量与发布策略。
II. 名词与变量(记忆锚点)
- 异常与离群
- 点异常:point_anom(单点显著偏离基线)。
- 语境异常:contextual_anom(在给定 RefCond 或季节内偏离)。
- 集合异常:collective_anom(一段落的行为改变)。
- 离群标签:outlier,与异常并非等价,需依处置策略区分。
- 漂移
- 分布漂移:drift(P_t(x) 与参考分布 P_ref(x) 的偏离)。
- 概念漂移:E[ y | x ] 关系改变(模型场景使用)。
- 通道漂移:q_len、rho、W_q 的系统性变化。
- 基线与统计量
- 均值与方差:mu,sigma;中位与 MAD:med,MAD;分位数:Q1/Q3,IQR = Q3 - Q1。
- 指标:P99,KS,D_KL,PSI。
III. 公设(P108-*)
- P108-01 因果与时基公设
异常检测一律在 tau_mono 上进行;不得破坏 non_decreasing(ts) 与 non_decreasing(ell)。 - P108-02 显式标注公设
任意异常、离群与漂移必须以标签与字段显式记录,禁止静默删除或隐式校正。 - P108-03 量纲一致公设
异常判据与阈值必须通过 check_dim 校核,避免单位变换导致的伪异常。 - P108-04 两口径优先公设
出现到达时相关异常时,优先用 delta_form 作为一类强信号;delta_form > tol_Tarr 直接触发 arrival_forms 断言。 - P108-05 不确定度伴随公设
标注与处置需同时更新 u(x) 或权重 w_imp,并传播至下游。 - P108-06 背压安全公设
在线场景下,任何重试与限流策略不得引入死锁或无限放大 q_len;检测算子自身受 cap 约束。
IV. 最小方程(S108-*)
- S108-01 Z 分数与稳健 Z 分数
z = ( x - mu ) / sigma
z_robust = 0.6745 * ( x - med ) / MAD - S108-02 IQR 围栏
outlier = ( x < Q1 - k * IQR ) ∨ ( x > Q3 + k * IQR )(通常 k ∈ [1.5, 3]) - S108-03 峰值与饱和检测
spike = ( |x_k - x_{k-1}| > thr_grad ) ∧ ( |x_{k+1} - x_k| > thr_grad )
saturation = ( x ∈ {x_min_sat, x_max_sat} ) - S108-04 卡方或残差门限(模型残差)
r = y - f(x),anom = ( |r| / u(r) > thr_resid ) - S108-05 变点与CUSUM
CUSUM^+_k = max( 0 , CUSUM^+_{k-1} + ( x_k - mu_0 - kappa ) )
漂移告警:CUSUM^+_k > h ∨ CUSUM^-_k > h - S108-06 分布漂移度量
D_KL( P || Q ) = sum_i p_i * ln( p_i / q_i )
KS = sup_x | F_P(x) - F_Q(x) |
PSI = sum_i ( p_i - q_i ) * ln( ( p_i + eps ) / ( q_i + eps ) ) - S108-07 到达时两口径异常
arrival_anom = ( delta_form > tol_Tarr ),其中
delta_form = | ( 1 / c_ref ) * ( ∫ n_eff d ell ) - ( ∫ ( n_eff / c_ref ) d ell ) | - S108-08 通道与背压监测
rho = lambda / mu(到达率与服务率);SLO_violation = ( P99( latency ) > SLO.p99 )
V. 清洗流程(M10-8 异常、漂移与离群)
- 基线与窗口设定
选择滚动或季节窗口 W;在 tau_mono 上估计 mu/sigma/med/MAD/Q1/Q3;为分布估计选择分箱或核密度。 - 候选检测
并行运行 z_robust、IQR、spike/saturation、CUSUM/变点、delta_form、drift_metrics(D_KL/KS/PSI)。 - 标签合成与去抖
使用多判据投票或置信融合生成 tags;对瞬时标签进行形态学闭运算(最小持续时长与最小间隔)。 - 处置策略
- quarantine(隔离)、downweight(降权)、repair(仅对可逆异常,如重复帧)、pass_through(标注后发布)。
- 更新 q_score 与 w_imp:q_score' = q_score * g(tags)。
- 合同化与回退
契约失败触发回退:降级发布(摘要或延迟)、切换稳健估计、触发人工审计。 - 落盘与追溯
写入 manifest.anomaly = {methods, params, windows, thresholds, drift_ref, vote_rule, latency_p99, FP/FN_est};更新 signature 与 hash_sha256(blob)。
VI. 契约与断言(本章必过项)
- 异常标注存在:exists tags 且覆盖目标字段。
- 无静默删除:sum( flags.silent_drop ) = 0。
- 两口径强约束:delta_form ≤ tol_Tarr,否则触发 arrival_anom 与发布闸门。
- 量纲守恒:check_dim( thresholds ) = true。
- 受控延时:P99( detect_latency ) ≤ SLO.detect_p99。
- 漂移护栏:drift_metric ≤ tol_drift 或进入降级路径。
- 面板完备:exists(report_anom) 与 manifest.anomaly 字段齐全。
VII. 实现绑定(I10-8)
- 接口原型
- detect_outlier(ds, method, fields) -> tags
- detect_drift(ds_ref, ds_cur, metrics) -> drift_report
- fuse_anomaly_tags(tags_list, rule) -> tags_fused
- mitigate_anomaly(ds, tags, policy) -> ds', effects
- audit_anomaly(ds, tags) -> report_anom
- 前置条件
第4章单位与量纲一致;第5章时基对齐;第6章路径与到达时合规;第7章缺失显式与受控插补。 - 不变量与后置
不改变 ts/ell 的单调性;所有处置在 manifest 可重放;q_score 与不确定度同步更新。 - 失败语义
E_DRIFT_REF_MISSING,E_DIM_THRESHOLD_INVALID,E_LATENCY_SLO_BREACH,E_RULE_CONFLICT。
VIII. 交叉引用
- 到达时与路径(delta_form、gamma(ell)):见第6章。
- 缺失与插补(降权、w_imp、u_imp):见第7章。
- 合同化与发布闸门:见第10章。
- 流式背压与执行图协同:见第11章。
- 质量评分与审计面板:见第14章。
IX. 质量度量与风控
- 核心指标
- 检测延迟:detect_latency_p50/p95/p99
- 标注强度:anom_rate = mean( 1_{tags ≠ ∅} )
- 漂移幅度:D_KL,KS,PSI
- 影响面:affected_share = fraction_of_downstream_ops_using_tagged
- 误报/漏报估计:FP_hat,FN_hat(基于保留黄金集或事后核验)
- 通道健康:rho,W_q,drop_rate,retry_rate
- 告警建议
- anom_rate > tol_anom → 启用强降权或隔离
- D_KL > tol_kl ∨ KS > tol_ks → 切换稳健基线或回退版本
- detect_latency_p99 > SLO.detect_p99 → 降级检测复杂度或扩容
X. 边界与特例
- 重复帧与卡死序列
stuck = ( x_k = x_{k-1} = ... = const ) 持续超过阈值 → 标注 stuck 并隔离。 - 饱和与量程溢出
saturation 优先作为异常而非离群;不得插补覆盖,需回溯计量链路。 - 到达时异常
若 arrival_anom,先回到第6章复核 n_eff 与 c_ref 源,再决定发布策略。 - 季节性与上下文
在 RefCond 或季节周期内建立分段基线,避免将季节效应误报为漂移。
XI. 审计与面板字段
- 面板最小集
anom_rate,drift_metric.{D_KL,KS,PSI},detect_latency_p99,delta_form_violations,spike_count,saturation_count,stuck_segments,quarantine_share,downweight_share。 - 追溯字段
methods,params,windows,thresholds,vote_rule,drift_ref_window,seed,version,signature,hash_sha256(blob)。
小结
本章给出了在统一时基与量纲口径下的异常、漂移与离群治理框架:以稳健统计与变点方法形成多路检测,以 delta_form 作为到达时强信号,以标签与不确定度伴随处置,贯通 manifest、SLO 面板与流式背压护栏。由此确保清洗产物在面对突发扰动与缓慢漂移时,仍能维持可发布与可审计的质量基线。
版权与许可(CC BY 4.0)
版权声明:除另有说明外,《能量丝理论》(含文本、图表、插图、符号与公式)的著作权由作者(“屠广林”先生)享有。
许可方式:本作品采用 Creative Commons 署名 4.0 国际许可协议(CC BY 4.0)进行许可;在注明作者与来源的前提下,允许为商业或非商业目的进行复制、转载、节选、改编与再分发。
署名格式(建议):作者:“屠广林”;作品:《能量丝理论》;来源:energyfilament.org;许可证:CC BY 4.0。
首次发布: 2025-11-11|当前版本:v5.1
协议链接:https://creativecommons.org/licenses/by/4.0/