目录文档-技术白皮书16-EFT.WP.Methods.Cleaning v1.0

第7章 缺失、掩码与插补治理


一句话目标:以显式掩码 m ∈ {0,1} 统一缺失语义,约束插补在 Delta_t 与物理口径内进行,记录不确定度 u_imp 与方法签名,使后续计算可降权、可审计、可回溯。


I. 范围与对象

  1. 适用对象
    • 第6章后得到的 D_arrival 及其衍生字段中的所有数值列与时间序列列。
    • 与路径、到达时、密度、质量评分有关的字段在插补场景下的治理与落盘。
  2. 目标产物
    产出 D_missing 与 manifest.missing = {mask_fields, strategy, params, u_imp, coverage, gap_stats};生成面向面板的质量指标与告警。

II. 名词与变量(记忆锚点)


III. 公设(P107-*)


IV. 最小方程(S107-*)


V. 缺失识别与掩码生成

  1. 规则归一
    • 识别 NaN/null、非法范围、饱和(如 x ∈ {x_min_sat, x_max_sat})、哨兵值(如 -9999)并统一映射为 m=1。
    • 对复合字段(如 (n_eff/c_ref))按组成字段掩码逻辑 m = max( m(n_eff), m(c_ref) )。
  2. 结构性缺失
    例如特定设备不测某字段、或路径段无介质数据;标注 structural_missing=1,禁止自动插补。
  3. 机制标注
    依据采集日志与统计检验标注 miss_mech ∈ {MCAR, MAR, MNAR};MNAR 进入隔离或仅降权发布。

VI. 清洗流程(M10-7 缺失、掩码与插补)


VII. 契约与断言(本章必过项)


VIII. 实现绑定(I10-7)

  1. 接口原型
    • handle_missing(ds, strategy) -> ds', manifest
    • infer_mask(ds, rules) -> m
    • choose_impute(ds, meta) -> {method, params}
    • impute_series(x, ts, method, params) -> {x_tilde, u_imp, w_imp}
    • audit_impute(x, x_tilde, m) -> report
  2. 前置条件
    第5–6章的 ts、ell、arrival.* 已通过契约;第4章单位/量纲一致。
  3. 后置条件与不变量
    m 全覆盖;x_tilde 仅在允许窗口内出现;u_imp 与 w_imp 已写入;manifest.missing 可重放。
  4. 失败语义
    E_MASK_RULE_CONFLICT,E_IMPUTE_WINDOW_EXCEED,E_DIM_FAIL_AFTER_IMPUTE,E_UNCERTAINTY_MISSING。

IX. 常用插补策略与护栏

  1. 线性插补
    • 用途:小间隙平稳段。
    • 护栏:t1 - t0 ≤ Delta_t,端点非插补值优先。
  2. 样条插值(C2 或分段三次)
    • 用途:平滑信号;
    • 护栏:禁止跨越跃迁/阶跃段(由异常检测或梯度阈值标注)。
  3. 前向保持(ffill)
    • 用途:计数器或阶跃态;
    • 护栏:Delta_t_hold 严格限制;发布标注 held=1。
  4. 状态空间/卡尔曼
    • 用途:动态系统;
    • 护栏:模型与参数入清单,训练区间与漂移告警绑定。
  5. 物理约束回归
    • 用途:守恒/非负/单调变量;
    • 护栏:约束集 C = {x | Ax ≤ b} 入清单,违反即回退。
  6. 参考条件修正(占位)
    • 用途:RefCond 改变导致系统性偏移;
    • 护栏:仅记录,不在本章执行修正(见第12章)。

X. 质量度量与风控

  1. 指标
    • 缺失率:miss_rate = mean(m)
    • 间隙统计:p95(Delta_ts_k),gap_ratio = mean(gap_k)
    • 插补占比:imp_ratio = mean( r_tilde = 1 - m_after ) - coverage
    • 不确定度:mean(u_imp),p95(u_imp)
    • 影响度:share_downstream = fraction_of_downstream_ops_using_imputed
  2. 告警建议
    • miss_rate > tol_miss → 降权或隔离源
    • gap_ratio > tol_gap → 缩短 Delta_t 或加采样
    • p95(u_imp) > tol_uimp → 切换稳健策略或拒绝发布
    • imp_ratio > tol_imp → 仅发布稀疏摘要或标注为 preview

XI. 边界与特例


XII. 审计与面板字段


XIII. 交叉引用


小结
本章将缺失识别、掩码生成与受控插补纳入标准闭环:以 m 显式语义、以 Delta_t 与物理口径约束插补、以 u_imp 与 w_imp 控制风险,并将方法与参数落盘于 manifest.missing。完成后,数据在不牺牲因果与量纲的前提下获得最小必要的可用性提升,为第8章异常治理与第10章发布冻结提供可审计基础。


版权与许可(CC BY 4.0)

版权声明:除另有说明外,《能量丝理论》(含文本、图表、插图、符号与公式)的著作权由作者(“屠广林”先生)享有。
许可方式:本作品采用 Creative Commons 署名 4.0 国际许可协议(CC BY 4.0)进行许可;在注明作者与来源的前提下,允许为商业或非商业目的进行复制、转载、节选、改编与再分发。
署名格式(建议):作者:“屠广林”;作品:《能量丝理论》;来源:energyfilament.org;许可证:CC BY 4.0。

首次发布: 2025-11-11|当前版本:v5.1
协议链接:https://creativecommons.org/licenses/by/4.0/