目录 / 文档-技术白皮书 / 16-EFT.WP.Methods.Cleaning v1.0
一句话目标:以显式掩码 m ∈ {0,1} 统一缺失语义,约束插补在 Delta_t 与物理口径内进行,记录不确定度 u_imp 与方法签名,使后续计算可降权、可审计、可回溯。
I. 范围与对象
- 适用对象
- 第6章后得到的 D_arrival 及其衍生字段中的所有数值列与时间序列列。
- 与路径、到达时、密度、质量评分有关的字段在插补场景下的治理与落盘。
- 目标产物
产出 D_missing 与 manifest.missing = {mask_fields, strategy, params, u_imp, coverage, gap_stats};生成面向面板的质量指标与告警。
II. 名词与变量(记忆锚点)
- 掩码与观测:m ∈ {0,1},r = 1 - m。m=1 表示缺失,r=1 表示可用。
- 缺失机制:MCAR,MAR,MNAR(采用标签字段 miss_mech 记录判定)。
- 时间与窗口:ts,tau_mono,Delta_t,gap_max。
- 插补算子与发布:impute_{method}(x | context) -> x_tilde,corr_env(x; RefCond)(第12章)。
- 不确定度:u(x),u_imp,U = k * u_c。
- 质量与权重:q_score ∈ [0,1],w_imp ∈ [0,1](对插补样本的降权)。
III. 公设(P107-*)
- P107-01 显式掩码公设
任意缺失必须以 m 显式记录;禁止隐式填值与静默外推。 - P107-02 可再现插补公设
任意插补均需记录方法、参数、上下文与随机种子,形成可重放签名 signature. - P107-03 因果与节拍公设
插补遵循因果顺序与发布节拍;不得引入时间逆行或破坏 non_decreasing(ts)。 - P107-04 量纲一致公设
插补前后必须通过 check_dim( x_tilde - x )。 - P107-05 不确定度伴随公设
为插补段生成 u_imp 并与测量不确定度合成;缺乏 u_imp 的插补视为契约失败。 - P107-06 风险优先公设
MNAR 场景默认降权或隔离;MAR/MCAR 才允许无偏口径假设。
IV. 最小方程(S107-*)
- S107-01 掩码与覆盖度
r = 1 - m
coverage = mean( r ) - S107-02 间隙检测(时间序列)
设相邻时间差 Delta_ts_k = ts_{k+1} - ts_k:
gap_k = 1 若 Delta_ts_k > gap_max,否则 gap_k = 0 - S107-03 线性插补(同窗)
给定 t0 < t < t1,w = ( t - t0 ) / ( t1 - t0 ):
x_tilde(t) = w * x(t1) + ( 1 - w ) * x(t0)
仅当 t1 - t0 ≤ Delta_t 且 gap_k = 0 - S107-04 前向保持(限制版)
x_tilde(t) = x(t_prev) 若 ts - ts_prev ≤ Delta_t_hold,否则保持缺失。 - S107-05 模型插补(通式)
x_tilde = f_theta( Z ),其中 Z 为上下文特征集;记录 theta 与训练区间。 - S107-06 插补不确定度合成
u^2_total(x_tilde) = u^2_meas(x) + u^2_imp(x)
若使用线性插补且端点独立:
u^2_imp = w^2 * u^2(x(t1)) + (1 - w)^2 * u^2(x(t0)) - S107-07 降权建议
w_imp = clip( 1 - alpha * miss_density_window , 0 , 1 )
其中 miss_density_window 为窗口内缺失占比,alpha ∈ [0,1] 策略设定。 - S107-08 量纲检查
check_dim( x_tilde - x ) = true
V. 缺失识别与掩码生成
- 规则归一
- 识别 NaN/null、非法范围、饱和(如 x ∈ {x_min_sat, x_max_sat})、哨兵值(如 -9999)并统一映射为 m=1。
- 对复合字段(如 (n_eff/c_ref))按组成字段掩码逻辑 m = max( m(n_eff), m(c_ref) )。
- 结构性缺失
例如特定设备不测某字段、或路径段无介质数据;标注 structural_missing=1,禁止自动插补。 - 机制标注
依据采集日志与统计检验标注 miss_mech ∈ {MCAR, MAR, MNAR};MNAR 进入隔离或仅降权发布。
VI. 清洗流程(M10-7 缺失、掩码与插补)
- 统一掩码生成
汇总规则与来源,生成 m;输出 coverage 与 gap_stats。 - 缺失机制判定
粗检(独立性、与协变量相关性)并标注 miss_mech;MNAR → 隔离或只读发布。 - 候选策略选择
优先选择守恒与因果友好的方法:线性/样条(局部)、限定前向保持、物理约束回归、卡尔曼/状态空间。 - 插补执行(受限)
在 Delta_t 与 gap_max 约束内执行 impute_{method};超界缺失保持 m=1。 - 不确定度评估与降权
按 S107-06 计算 u_imp;生成 w_imp 并落盘。 - 量纲与契约校核
check_dim( x_tilde - x );检验单调/约束(如 x ≥ 0、ell 单调)与窗口覆盖。 - 清单与签名
写入 manifest.missing = {method, params, seeds, Delta_t, gap_max, u_imp, w_imp, coverage, miss_mech};更新 signature 与哈希。 - 产物输出
产出 D_missing,进入第8章异常治理与第10章契约闸门。
VII. 契约与断言(本章必过项)
- 掩码完整:forall x: exists m(x)
- 无隐式填值:sum( flags.silent_fill ) = 0
- 插补边界:impute_only_if( (t1 - t0) ≤ Delta_t ∧ gap=0 )
- 量纲守恒:check_dim( x_tilde - x ) = true
- 不确定度伴随:exists u_imp 且 u_total 已更新
- 机制标注:exists miss_mech
- 降权可用:exists w_imp ∈ [0,1]
- 清单完备:exists(manifest.missing) 且字段齐全
VIII. 实现绑定(I10-7)
- 接口原型
- handle_missing(ds, strategy) -> ds', manifest
- infer_mask(ds, rules) -> m
- choose_impute(ds, meta) -> {method, params}
- impute_series(x, ts, method, params) -> {x_tilde, u_imp, w_imp}
- audit_impute(x, x_tilde, m) -> report
- 前置条件
第5–6章的 ts、ell、arrival.* 已通过契约;第4章单位/量纲一致。 - 后置条件与不变量
m 全覆盖;x_tilde 仅在允许窗口内出现;u_imp 与 w_imp 已写入;manifest.missing 可重放。 - 失败语义
E_MASK_RULE_CONFLICT,E_IMPUTE_WINDOW_EXCEED,E_DIM_FAIL_AFTER_IMPUTE,E_UNCERTAINTY_MISSING。
IX. 常用插补策略与护栏
- 线性插补
- 用途:小间隙平稳段。
- 护栏:t1 - t0 ≤ Delta_t,端点非插补值优先。
- 样条插值(C2 或分段三次)
- 用途:平滑信号;
- 护栏:禁止跨越跃迁/阶跃段(由异常检测或梯度阈值标注)。
- 前向保持(ffill)
- 用途:计数器或阶跃态;
- 护栏:Delta_t_hold 严格限制;发布标注 held=1。
- 状态空间/卡尔曼
- 用途:动态系统;
- 护栏:模型与参数入清单,训练区间与漂移告警绑定。
- 物理约束回归
- 用途:守恒/非负/单调变量;
- 护栏:约束集 C = {x | Ax ≤ b} 入清单,违反即回退。
- 参考条件修正(占位)
- 用途:RefCond 改变导致系统性偏移;
- 护栏:仅记录,不在本章执行修正(见第12章)。
X. 质量度量与风控
- 指标
- 缺失率:miss_rate = mean(m)
- 间隙统计:p95(Delta_ts_k),gap_ratio = mean(gap_k)
- 插补占比:imp_ratio = mean( r_tilde = 1 - m_after ) - coverage
- 不确定度:mean(u_imp),p95(u_imp)
- 影响度:share_downstream = fraction_of_downstream_ops_using_imputed
- 告警建议
- miss_rate > tol_miss → 降权或隔离源
- gap_ratio > tol_gap → 缩短 Delta_t 或加采样
- p95(u_imp) > tol_uimp → 切换稳健策略或拒绝发布
- imp_ratio > tol_imp → 仅发布稀疏摘要或标注为 preview
XI. 边界与特例
- 结构性不可测字段
始终保留 m=1,不允许插补;可派生替代量(注明关系)。 - 路径相关量(如 n_eff(ell))
仅允许沿 ell 的局部插值;不得跨越介质分段与断点(见第6章分段规则)。 - 到达时 T_arr
不做直接插补;若必要仅补 n_eff 或 c_ref 的局部缺口,并重新计算两口径与 delta_form。
XII. 审计与面板字段
- 面板最小集
miss_rate,coverage,gap_ratio,imp_ratio,mean(u_imp),p95(u_imp),held_count,method_share,MNAR_ratio - 追溯字段
strategy.name,params,seed,version,signature,hash_sha256(blob)。
XIII. 交叉引用
- 单位与量纲(check_dim、u(x) 合成):见第4章与附录E。
- 时间轴与同步(Delta_t、gap_max、因果约束):见第5章。
- 路径与到达时(两口径与介质分段):见第6章。
- 异常与漂移(与插补的互斥/先后):见第8章。
- 契约与发布冻结:见第10章。
- 质量评分与审计:见第14章。
小结
本章将缺失识别、掩码生成与受控插补纳入标准闭环:以 m 显式语义、以 Delta_t 与物理口径约束插补、以 u_imp 与 w_imp 控制风险,并将方法与参数落盘于 manifest.missing。完成后,数据在不牺牲因果与量纲的前提下获得最小必要的可用性提升,为第8章异常治理与第10章发布冻结提供可审计基础。
版权与许可(CC BY 4.0)
版权声明:除另有说明外,《能量丝理论》(含文本、图表、插图、符号与公式)的著作权由作者(“屠广林”先生)享有。
许可方式:本作品采用 Creative Commons 署名 4.0 国际许可协议(CC BY 4.0)进行许可;在注明作者与来源的前提下,允许为商业或非商业目的进行复制、转载、节选、改编与再分发。
署名格式(建议):作者:“屠广林”;作品:《能量丝理论》;来源:energyfilament.org;许可证:CC BY 4.0。
首次发布: 2025-11-11|当前版本:v5.1
协议链接:https://creativecommons.org/licenses/by/4.0/