16-EFT.WP.Methods.Cleaning v1.0 | 第7章缺失、掩码与插补治理 | 能量丝理论

第7章缺失、掩码与插补治理

一句话目标：以显式掩码 m ∈ {0,1} 统一缺失语义，约束插补在 Delta_t 与物理口径内进行，记录不确定度 u_imp 与方法签名，使后续计算可降权、可审计、可回溯。

I. 范围与对象

适用对象
- 第6章后得到的 D_arrival 及其衍生字段中的所有数值列与时间序列列。
- 与路径、到达时、密度、质量评分有关的字段在插补场景下的治理与落盘。
目标产物
产出 D_missing 与 manifest.missing = {mask_fields, strategy, params, u_imp, coverage, gap_stats}；生成面向面板的质量指标与告警。

II. 名词与变量（记忆锚点）

掩码与观测：m ∈ {0,1}，r = 1 - m。m=1 表示缺失，r=1 表示可用。
缺失机制：MCAR，MAR，MNAR（采用标签字段 miss_mech 记录判定）。
时间与窗口：ts，tau_mono，Delta_t，gap_max。
插补算子与发布：impute_{method}(x | context) -> x_tilde，corr_env(x; RefCond)（第12章）。
不确定度：u(x)，u_imp，U = k * u_c。
质量与权重：q_score ∈ [0,1]，w_imp ∈ [0,1]（对插补样本的降权）。

III. 公设（P107-*）

P107-01 显式掩码公设
任意缺失必须以 m 显式记录；禁止隐式填值与静默外推。
P107-02 可再现插补公设
任意插补均需记录方法、参数、上下文与随机种子，形成可重放签名 signature.
P107-03 因果与节拍公设
插补遵循因果顺序与发布节拍；不得引入时间逆行或破坏 non_decreasing(ts)。
P107-04 量纲一致公设
插补前后必须通过 check_dim( x_tilde - x )。
P107-05 不确定度伴随公设
为插补段生成 u_imp 并与测量不确定度合成；缺乏 u_imp 的插补视为契约失败。
P107-06 风险优先公设
MNAR 场景默认降权或隔离；MAR/MCAR 才允许无偏口径假设。

IV. 最小方程（S107-*）

S107-01 掩码与覆盖度
r = 1 - m
coverage = mean( r )
S107-02 间隙检测（时间序列）
设相邻时间差 Delta_ts_k = ts_{k+1} - ts_k：
gap_k = 1 若 Delta_ts_k > gap_max，否则 gap_k = 0
S107-03 线性插补（同窗）
给定 t0 < t < t1，w = ( t - t0 ) / ( t1 - t0 )：
x_tilde(t) = w * x(t1) + ( 1 - w ) * x(t0)
仅当 t1 - t0 ≤ Delta_t 且 gap_k = 0
S107-04 前向保持（限制版）
x_tilde(t) = x(t_prev) 若 ts - ts_prev ≤ Delta_t_hold，否则保持缺失。
S107-05 模型插补（通式）
x_tilde = f_theta( Z )，其中 Z 为上下文特征集；记录 theta 与训练区间。
S107-06 插补不确定度合成
u^2_total(x_tilde) = u^2_meas(x) + u^2_imp(x)
若使用线性插补且端点独立：
u^2_imp = w^2 * u^2(x(t1)) + (1 - w)^2 * u^2(x(t0))
S107-07 降权建议
w_imp = clip( 1 - alpha * miss_density_window , 0 , 1 )
其中 miss_density_window 为窗口内缺失占比，alpha ∈ [0,1] 策略设定。
S107-08 量纲检查
check_dim( x_tilde - x ) = true

V. 缺失识别与掩码生成

规则归一
- 识别 NaN/null、非法范围、饱和（如 x ∈ {x_min_sat, x_max_sat}）、哨兵值（如 -9999）并统一映射为 m=1。
- 对复合字段（如 (n_eff/c_ref)）按组成字段掩码逻辑 m = max( m(n_eff), m(c_ref) )。
结构性缺失
例如特定设备不测某字段、或路径段无介质数据；标注 structural_missing=1，禁止自动插补。
机制标注
依据采集日志与统计检验标注 miss_mech ∈ {MCAR, MAR, MNAR}；MNAR 进入隔离或仅降权发布。

VI. 清洗流程（M10-7 缺失、掩码与插补）

统一掩码生成
汇总规则与来源，生成 m；输出 coverage 与 gap_stats。
缺失机制判定
粗检（独立性、与协变量相关性）并标注 miss_mech；MNAR → 隔离或只读发布。
候选策略选择
优先选择守恒与因果友好的方法：线性/样条（局部）、限定前向保持、物理约束回归、卡尔曼/状态空间。
插补执行（受限）
在 Delta_t 与 gap_max 约束内执行 impute_{method}；超界缺失保持 m=1。
不确定度评估与降权
按 S107-06 计算 u_imp；生成 w_imp 并落盘。
量纲与契约校核
check_dim( x_tilde - x )；检验单调/约束（如 x ≥ 0、ell 单调）与窗口覆盖。
清单与签名
写入 manifest.missing = {method, params, seeds, Delta_t, gap_max, u_imp, w_imp, coverage, miss_mech}；更新 signature 与哈希。
产物输出
产出 D_missing，进入第8章异常治理与第10章契约闸门。

VII. 契约与断言（本章必过项）

掩码完整：forall x: exists m(x)
无隐式填值：sum( flags.silent_fill ) = 0
插补边界：impute_only_if( (t1 - t0) ≤ Delta_t ∧ gap=0 )
量纲守恒：check_dim( x_tilde - x ) = true
不确定度伴随：exists u_imp 且 u_total 已更新
机制标注：exists miss_mech
降权可用：exists w_imp ∈ [0,1]
清单完备：exists(manifest.missing) 且字段齐全

VIII. 实现绑定（I10-7）

接口原型
- handle_missing(ds, strategy) -> ds', manifest
- infer_mask(ds, rules) -> m
- choose_impute(ds, meta) -> {method, params}
- impute_series(x, ts, method, params) -> {x_tilde, u_imp, w_imp}
- audit_impute(x, x_tilde, m) -> report
前置条件
第5–6章的 ts、ell、arrival.* 已通过契约；第4章单位/量纲一致。
后置条件与不变量
m 全覆盖；x_tilde 仅在允许窗口内出现；u_imp 与 w_imp 已写入；manifest.missing 可重放。
失败语义
E_MASK_RULE_CONFLICT，E_IMPUTE_WINDOW_EXCEED，E_DIM_FAIL_AFTER_IMPUTE，E_UNCERTAINTY_MISSING。

IX. 常用插补策略与护栏

线性插补
- 用途：小间隙平稳段。
- 护栏：t1 - t0 ≤ Delta_t，端点非插补值优先。
样条插值（C2 或分段三次）
- 用途：平滑信号；
- 护栏：禁止跨越跃迁/阶跃段（由异常检测或梯度阈值标注）。
前向保持（ffill）
- 用途：计数器或阶跃态；
- 护栏：Delta_t_hold 严格限制；发布标注 held=1。
状态空间/卡尔曼
- 用途：动态系统；
- 护栏：模型与参数入清单，训练区间与漂移告警绑定。
物理约束回归
- 用途：守恒/非负/单调变量；
- 护栏：约束集 C = {x | Ax ≤ b} 入清单，违反即回退。
参考条件修正（占位）
- 用途：RefCond 改变导致系统性偏移；
- 护栏：仅记录，不在本章执行修正（见第12章）。

X. 质量度量与风控

指标
- 缺失率：miss_rate = mean(m)
- 间隙统计：p95(Delta_ts_k)，gap_ratio = mean(gap_k)
- 插补占比：imp_ratio = mean( r_tilde = 1 - m_after ) - coverage
- 不确定度：mean(u_imp)，p95(u_imp)
- 影响度：share_downstream = fraction_of_downstream_ops_using_imputed
告警建议
- miss_rate > tol_miss → 降权或隔离源
- gap_ratio > tol_gap → 缩短 Delta_t 或加采样
- p95(u_imp) > tol_uimp → 切换稳健策略或拒绝发布
- imp_ratio > tol_imp → 仅发布稀疏摘要或标注为 preview

XI. 边界与特例

结构性不可测字段
始终保留 m=1，不允许插补；可派生替代量（注明关系）。
路径相关量（如 n_eff(ell)）
仅允许沿 ell 的局部插值；不得跨越介质分段与断点（见第6章分段规则）。
到达时 T_arr
不做直接插补；若必要仅补 n_eff 或 c_ref 的局部缺口，并重新计算两口径与 delta_form。

XII. 审计与面板字段

面板最小集
miss_rate，coverage，gap_ratio，imp_ratio，mean(u_imp)，p95(u_imp)，held_count，method_share，MNAR_ratio
追溯字段
strategy.name，params，seed，version，signature，hash_sha256(blob)。

XIII. 交叉引用

单位与量纲（check_dim、u(x) 合成）：见第4章与附录E。
时间轴与同步（Delta_t、gap_max、因果约束）：见第5章。
路径与到达时（两口径与介质分段）：见第6章。
异常与漂移（与插补的互斥/先后）：见第8章。
契约与发布冻结：见第10章。
质量评分与审计：见第14章。

小结
本章将缺失识别、掩码生成与受控插补纳入标准闭环：以 m 显式语义、以 Delta_t 与物理口径约束插补、以 u_imp 与 w_imp 控制风险，并将方法与参数落盘于 manifest.missing。完成后，数据在不牺牲因果与量纲的前提下获得最小必要的可用性提升，为第8章异常治理与第10章发布冻结提供可审计基础。