第4章 离群检测与数据质量


I. 目标与术语


II. 公设与一般性要求


III. 单变量检测(静态样本)


IV. 多变量检测(相关维)


V. 时序与流式检测


VI. 基于残差与拟合的检测(与第2章、第三章衔接)


VII. 缺失、重复与边界值处理


VIII. 数据质量度量与阈值基线


IX. 复合判决与处置策略


X. 质量控制流程 Mx-2(可执行)


XI. 到达时 T_arr 的路径级离群示例(跨卷锚点)


XII. 实现绑定与接口映射(I50 3)

  1. zscore_detect(x:array, thresh:float=3.5) -> mask:array
    输入:标量序列或列向量;输出:mask_outlier。
  2. mad_scale(x:array) -> float
    返回稳健尺度 s,供 MAD 规则与 IRLS 初始化。
  3. hampel_filter(series:array, k:int, t0:float=3.0) -> mask:array
    滑窗半径 k,阈值 t0。
  4. ransac_fit(model:any, data:any, max_iter:int, tol:float) -> dict
    输出包含 Inliers 索引、theta_hat 与拟合残差统计。
  5. 典型序列:
    • mask1 = zscore_detect(x, 3.5);mask2 = hampel_filter(x_t, k, 3.0);mask = mask1 OR mask2。
    • 以 psi_weight 生成 w,IRLS 再拟合;调用 propagate_error_delta 更新 u_c(y)。
    • attach_traceability(report, chain) 记录证据链与参数源。

XIII. 报告与合规模块(最小字段)


XIV. 本章输出与衔接