目录 / 文档-技术白皮书 / 05-EFT.WP.Core.Errors v1.0
I. 目标与术语
- 目标:在数据与模型闭环中,以可追溯、可复现的方式标识与处置异常样本,提升估计稳定性并保护误差预算 EB 的有效性。
- 术语:outlier(偏离生成机理的观测)、anomaly(运行时异常事件)、mask_outlier ∈ {0,1}(硬掩码)、w ∈ [0,1](软权重),r = y - f(x; theta)(residual),r_bar = r / sigma(standardized residual)。
- 维度一致:任一检测统计量须是无量纲或明确给出单位;check_dim 必过。涉及到达时 T_arr 的数据质量时,必须显式声明路径 gamma(ell) 与测度 d ell。
II. 公设与一般性要求
- P74-1(位置-尺度不变性):离群检测统计量在仿射变换 x_to = a * x_from + b 下保持阈值可比,须使用标准化或稳健尺度 s。
- P74-2(单源单因原则):同一观测的离群标记优先由一个主判据决定,其余判据作为佐证进入解释域与追溯链。
- P74-3(先权重,后剔除):优先采用权重降级(软处理),仅在任务风险不可接受时启用硬剔除 mask_outlier = 1。
III. 单变量检测(静态样本)
- Z-score:z_i = ( x_i - mu ) / sigma,阈值示例 |z_i| > 3.5。mu, sigma 来自稳态段或参考样本。
- MAD 规则:MAD = median( | x - median(x) | ),s = 1.4826 * MAD,以 | x_i - median(x) | / s > t0 判异(常取 t0 ∈ [3,4.5])。
- IQR 规则:IQR = Q3 - Q1,异常若 x_i < Q1 - k * IQR 或 x_i > Q3 + k * IQR(k = 1.5 常规,k = 3 严格)。
- 带不确定度权衡:若样本自带标准不确定度 u(x_i),使用 z_u,i = ( x_i - mu ) / u(x_i) 并与固定阈值比较。
IV. 多变量检测(相关维)
- Mahalanobis 距离:d_M^2(x) = ( x - mu )^T * Cov^{-1} * ( x - mu )。判别准则 d_M^2 > q_chi2(1 - alpha, p)。
- 稳健协方差:Cov 可替换为稳健估计 Cov_r(如 MCD 或基于 IRLS 的加权二阶矩)。
- 相关性声明:若使用 Cov_r,报告须含其估计方法、样本量与收敛准则。
V. 时序与流式检测
- Hampel 滤波(滑窗 k):窗口中位 med_t 与尺度 s_t = 1.4826 * MAD_t,若 | x_t - med_t | / s_t > t0 则异常(t0 常取 3.0)。
- 变点速查(CUSUM 体例):S_t = max( 0, S_{t-1} + x_t - mu - k_c ),报警条件 S_t > h(k_c, h 依风险调参)。
- 变化率门限:| x_t - x_{t-1} | / s_delta > tau_rc,其中 s_delta 为差分稳健尺度。
- 季节/趋势剥离:对 x_t = trend_t + season_t + resid_t,检测应作用于 resid_t 以避免误报。
VI. 基于残差与拟合的检测(与第2章、第三章衔接)
- 标准化残差:r_bar = r / sigma;| r_bar | > t_r 判异(t_r ∈ [3,5],依 n - p 调整)。
- 全局拟合统计:chi2 = r^T R r,若 chi2 > q_chi2(1 - alpha, n - p) 则整体失配;进入模型复核或权重再估计。
- IRLS 软重加权:w_i = psi( r_bar_i ) / r_bar_i,采用 "Huber" 或 "Tukey" 以降级高残差点的影响;更新 theta 并重算 u_c(y)。
- RANSAC(几何一致性):在假设一致模型下迭代抽样,得到内点集 Inliers 与模型参数;外点标记为 mask_outlier = 1。
VII. 缺失、重复与边界值处理
- 缺失标记:m_i ∈ {0,1};m_i = 1 表示缺失。缺失不直接判为离群,但不得参与尺度估计。
- 可再生填补(不影响量纲):中位数填补、最近邻时间向前填补(带 w_i 降级);报告字段需包含 is_imputed。
- 重复样本:以哈希或时戳去重;uniqueness = 1 - (#duplicates) / N。
- 物理边界:超出可行域的样本直接标记 mask_outlier = 1 并触发事件记录。
VIII. 数据质量度量与阈值基线
- 覆盖率:coverage = (#valid) / N;及时性:freshness = now - max(timestamp);一致性:consistency = (#pass_invariants) / (#checks)。
- 信噪比:SNR = P_signal / P_noise;图像/波形可用 PSNR。
- 质量指数(任务加权):DQI = ∑_j α_j * metric_j,∑ α_j = 1。当 DQI < tau_DQI 进入降级策略。
- 与误差预算耦合:若 Top-K 贡献度来自“数据质量”因素,必须在 EB 中单列并跟踪改进。
IX. 复合判决与处置策略
- 硬门控:mask = ( zscore_detect OR hampel_filter OR ( d_M^2 > q_chi2 ) )。
- 软门控:w = min( w_Huber(r_bar), w_Mahalanobis, w_Hampel );进入 IRLS 再拟合。
- 决策优先级:物理边界 > 安全与合规模块 > 硬统计阈值 > 软权重降级。
- 处置出口:keep、down-weight、remove、reacquire;每种出口需附 remediation 建议与追溯证据。
X. 质量控制流程 Mx-2(可执行)
- 数据接入与单位校验:convert、check_dim。
- 基线估计:计算 mu, sigma, MAD, Cov(或稳健版本)。
- 单变量检测:zscore_detect 与 MAD/IQR。
- 多变量检测:d_M^2 与阈值检验。
- 时序检测:hampel_filter(series, k, t0);可选 CUSUM。
- 残差域检测:计算 r, r_bar, chi2,执行 IRLS 或 RANSAC。
- 掩码与权重合成:生成 mask_outlier 与 w;记录原因码。
- 模型再拟合与传播:更新 theta,按第3章传播得到新的 u_c(y) 与 EB。
- 报告与追溯:输出 DQI、掩码比例、Top-K 异常原因、traceability_chain。
XI. 到达时 T_arr 的路径级离群示例(跨卷锚点)
- 路径离散:T_arr = ( ∑_k ( n_eff,k / c_ref ) * Δell_k ),每段形成观测对 ( n_eff,k, Δell_k )。
- 段级残差:r_k = y_k - ( n_eff,k / c_ref ) * Δell_k,标准化 r_bar,k = r_k / sigma_k。
- 段级检测:对 r_bar,k 用 MAD 规则,对 n_eff,k 用 zscore_detect;同时监控 Δell_k 的边界与一致性。
- 合成策略:若连续 q 段触发异常(q ≥ 3),标记路径区段异常并请求重测;否则进行 down-weight 并保留全局解算。
- 报告:显式 gamma(ell) 与 d ell,同步更新第3章的 u_c(T_arr) 与 EB。
XII. 实现绑定与接口映射(I50 3)
- zscore_detect(x:array, thresh:float=3.5) -> mask:array
输入:标量序列或列向量;输出:mask_outlier。 - mad_scale(x:array) -> float
返回稳健尺度 s,供 MAD 规则与 IRLS 初始化。 - hampel_filter(series:array, k:int, t0:float=3.0) -> mask:array
滑窗半径 k,阈值 t0。 - ransac_fit(model:any, data:any, max_iter:int, tol:float) -> dict
输出包含 Inliers 索引、theta_hat 与拟合残差统计。 - 典型序列:
- mask1 = zscore_detect(x, 3.5);mask2 = hampel_filter(x_t, k, 3.0);mask = mask1 OR mask2。
- 以 psi_weight 生成 w,IRLS 再拟合;调用 propagate_error_delta 更新 u_c(y)。
- attach_traceability(report, chain) 记录证据链与参数源。
XIII. 报告与合规模块(最小字段)
- 必填:method、thresh、window、alpha、mask_ratio、w_summary、DQI、TopK_causes、RefCond、unit_policy、traceability_chain。
- 互操作:与《Core.Metrology》round_by_unc、guard_band 对接判定;与第3章的 EB 同步版本号。
XIV. 本章输出与衔接
- 输出:单/多变量、时序、残差域离群检测规范;软硬门控与处置策略;流程 Mx-2;与 I50 3 的接口映射;T_arr 路径级用例。
- 衔接:后续第5章将把数值误差(舍入与截断)与本章检测联动,形成统一的质量—数值—不确定度闭环。
版权与许可(CC BY 4.0)
版权声明:除另有说明外,《能量丝理论》(含文本、图表、插图、符号与公式)的著作权由作者(“屠广林”先生)享有。
许可方式:本作品采用 Creative Commons 署名 4.0 国际许可协议(CC BY 4.0)进行许可;在注明作者与来源的前提下,允许为商业或非商业目的进行复制、转载、节选、改编与再分发。
署名格式(建议):作者:“屠广林”;作品:《能量丝理论》;来源:energyfilament.org;许可证:CC BY 4.0。
首次发布: 2025-11-11|当前版本:v5.1
协议链接:https://creativecommons.org/licenses/by/4.0/