目录 / 文档-技术白皮书 / 16-EFT.WP.Methods.Cleaning v1.0
一句话目标:以 RefCond 作为唯一发布口径,对受环境影响的字段执行 corr_env(x; RefCond),并在路径层对 n_eff 与 T_arr 做一致化与两口径复核。
I. 范围与对象
- 对象与输入输出
- 输入:标准化数据集 ds(见第3章),含环境量序列 env = {T, p, RH, ...}、路径参数 gamma(ell)、时间字段 ts 与 tau_mono、以及原始或推定的 n_eff。
- 输出:环境一致化数据集 ds_env(新增后缀 _ref 字段)、路径层 n_eff_ref(ell)、两口径到达时 T_arr_ref 与差异 delta_form_ref、以及 manifest.env。
- 约束与边界
- 修正仅改变数值,不改变字段语义、单位与量纲定义;原始值保留并可追溯。
- 所有窗口化与插值在 tau_mono 上进行,发布在 ts;同步参数 offset/skew/J 记录于 manifest(见第5章)。
II. 名词与变量
- 参考条件与环境向量
- RefCond = { e_i_ref } = { T_ref, p_ref, RH_ref, ... }。
- e = { e_i } 为事件或沿径 ell 上的环境观测向量,dim(e_i) 与 unit(e_i) 必声明。
- 环境修正与一致化字段
- x_ref = corr_env( x_obs ; RefCond, e )。
- phi_env(e; RefCond):无量纲修正因子;b_env(e; RefCond):同量纲偏置。
- n_eff_ref(ell):在 RefCond 下的有效折射率场。
- T_arr_ref:在 RefCond 下的到达时,两口径并行。
- delta_form_ref = | ( 1 / c_ref ) * ( ∫ n_eff_ref d ell ) - ( ∫ ( n_eff_ref / c_ref ) d ell ) |。
- 环境距离与不确定度
- D_M^2 = ( e - e_ref )^T Sigma^{-1} ( e - e_ref )(马氏距离,优先);或
d_env = sqrt( ∑ w_i * ( ( e_i - e_i_ref ) / s_i )^2 )。 - u(x) 为标准不确定度,U = k * u_c 见附录E。
- D_M^2 = ( e - e_ref )^T Sigma^{-1} ( e - e_ref )(马氏距离,优先);或
III. 公设(P112-*)
- P112-01 参考口径公设
发布面向消费者的字段必须在 RefCond 口径上提供,即存在 x_ref 并落入 manifest.env。 - P112-02 量纲守恒公设
corr_env 满足 dim(x_ref) = dim(x_obs),且 check_dim( x_ref - x_obs ) = 0。 - P112-03 路径点位修正公设
对路径积分型量,修正在积分内逐点作用:n_eff_ref(ell) = f( n_eff_obs(ell), e(ell), RefCond )。 - P112-04 两口径一致公设(参考条件)
计算 T_arr_ref 的两口径并记录 delta_form_ref,并在契约中断言 delta_form_ref ≤ tol_Tarr。 - P112-05 可追溯与版本公设
corr_env 的模型 model_id、参数、Sigma 与 RefCond 必记录并签名:hash_sha256(model_blob)、signature。 - P112-06 原始留存公设
不得覆盖原始字段;x_obs 与 x_ref 并存,m ∈ {0,1} 标注修正可行性(见第7章)。
IV. 最小方程(S112-*)
- S112-01 通用修正形式
x_ref = corr_env( x_obs ; RefCond, e ) = x_obs * phi_env(e; RefCond) + b_env(e; RefCond)。 - S112-02 线性近似族
加法型:x_ref = x_obs + ∑ beta_i * ( e_i - e_i_ref )。
乘法型:x_ref = x_obs * ∏ ( 1 + alpha_i * ( e_i - e_i_ref ) )。 - S112-03 折射率一致化
n_eff_ref(ell) = g( e(ell) ; RefCond ) 或
n_eff_ref(ell) = n_eff_obs(ell) + ∑ beta_i(ell) * ( e_i(ell) - e_i_ref )。 - S112-04 到达时两口径(参考条件)
T_arr_ref = ( 1 / c_ref ) * ( ∫_{gamma(ell)} n_eff_ref d ell ),
T_arr_ref = ( ∫_{gamma(ell)} ( n_eff_ref / c_ref ) d ell ),
delta_form_ref = | 前式 - 后式 |。 - S112-05 环境距离与闸门
D_M^2 ≤ tol_D2 或 d_env ≤ tol_env 为修正适用前置条件。 - S112-06 不确定度传播(线性化)
记 y = corr_env(x, e),则
u^2(y) = ( ∂y/∂x )^2 u^2(x) + ∑ ( ∂y/∂e_i )^2 u^2(e_i ) + 2 ∑_{i<j} ( ∂y/∂e_i )( ∂y/∂e_j ) cov(e_i, e_j )。
对到达时:若 n_eff_ref 沿径互不相关,
u^2( T_arr_ref ) = ( 1 / c_ref )^2 * ( ∫ u^2( n_eff_ref(ell) ) d ell );相关项按协方差核补充。 - S112-07 环境场配准
e(ell) = ( K_env ∘ align_timebase )( env_series , gamma(ell) ),其中 K_env 表示沿径插值/合同化算子。
V. 清洗流程(M10-12 环境一致化)
- 选择与记录参考条件
确定 RefCond、Sigma 与阈值 { tol_env | tol_D2 },写入策略与 manifest.env.ref。 - 校核单位与时基
对 env 与目标字段执行 repair_units 与 check_dim(见第4章);在 tau_mono 上对齐(见第5章)。 - 环境距离评估与适用判断
计算 D_M^2 或 d_env;若超阈,执行降级:m=0 或标注 q_score 降权,或转入隔离流。 - 环境场配准到路径
通过 K_env 在 gamma(ell) 上获得 e(ell);对事件型任务,对齐 env(ts) 到每条记录。 - 应用修正模型
为每个目标字段计算 x_ref = corr_env( x_obs ; RefCond, e );为路径量计算 n_eff_ref(ell)。 - 到达时重算与两口径复核
计算 T_arr_ref 的两口径并生成 delta_form_ref;断言 delta_form_ref ≤ tol_Tarr。 - 不确定度传播
使用 S112-06 线性化传播 u(x_ref) 与 u(T_arr_ref);不可得的协方差以策略缺省处理并记录。 - 落盘与签名
- 生成 manifest.env:RefCond, model_id, params, Sigma, tol_*, D_M^2 统计、delta_form_ref 分布、signature。
- 原始与修正值并存:x_obs, x_ref;确保 TraceID 与版本闭包(见第10章)。
VI. 契约与断言
- 适用与稳定
- D_M^2 ≤ tol_D2 或 d_env ≤ tol_env。
- non_decreasing(ell)、L_gamma 校核沿用第6章。
- 量纲与单位
check_dim( x_ref - x_obs ) = 0,unit(x_ref) = unit(x_obs)。 - 两口径与到达时
- arrival_forms( delta_form_ref , tol_Tarr )。
- | T_arr_ref - T_arr_obs | ≤ tol_Tarr_shift(若需监控修正带来的漂移门限)。
- 不确定度与质量
- u(x_ref) ≤ tol_u_x,u(T_arr_ref) ≤ tol_u_T,q_score ≥ q_min。
- 修正失败比例 ratio(m=0) ≤ tol_fail_env。
- 追溯与版本
manifest.env.model_id 存在且 hash_sha256(model_blob) 一致;signature 验证通过。
VII. 实现绑定(I10-12)
- apply_env_correction(ds, env, RefCond, model_id) -> ds', report
输入:ds, env, RefCond, model_id;输出:带 _ref 字段的 ds' 与过程报告。
不变量:不改变 unit(*) 与 dim(*);原始字段保留。 - register_env_model(model_blob) -> model_id, params, Sigma
负责模型落库与参数回显,返回协方差 Sigma 以供 D_M^2 与传播。 - align_env_to_path(env_series, gamma, policy) -> e(ell)
实现 K_env ∘ align_timebase,支持沿径插值与窗口合同化。 - recompute_arrival_ref(ds') -> T_arr_ref, delta_form_ref
在 RefCond 下重算两口径并生成差异度量。 - propagate_uncertainty_env(ds', fields, Sigma) -> u_report
线性化传播并输出关键字段不确定度面板。 - assert_env_contract(ds', tests) -> report
按本章契约生成通过/失败与阈值偏离。
VIII. 交叉引用
- 模式与字段单位:见《EFT.WP.Core.DataSpec v1.0》。
- 采集与到达时定义:见《EFT.WP.Core.Sea v1.0》。
- 执行图与流式机制:见《EFT.WP.Core.Threads v1.0》与本卷第11章。
- 密度与归一化口径:见《EFT.WP.Core.Density v1.0》。
- 本卷第4章(单位与量纲)、第5章(时基)、第6章(路径与到达时)、第7章(掩码与插补)、第10章(发布冻结)。
IX. 质量度量与风控
- 指标
- D_M^2_p95, d_env_p95, share_corrected, delta_form_ref_p95, |T_arr_ref - T_arr_obs|_p95, u(T_arr_ref)_p95。
- 漂移:drift_env = d/dt ( d_env_p50 );告警阈值 tol_drift_env。
- 风控动作
- D_M^2 超阈 → 降级到原始口径旁路或扩大 lateness_max 重取环境。
- delta_form_ref 超阈 → 回退 model_id 上一稳定版本,或降低路径分辨率重算。
- u(T_arr_ref) 偏大 → 增强传感器融合或扩大合同化窗口,直至满足 tol_u_T。
小结
本章将 RefCond 与 corr_env(x; RefCond) 纳入清洗闭环,在路径层对 n_eff 与 T_arr 做参考条件下一致化,保持量纲与单位不变,并以 delta_form_ref 与 D_M^2 为核心闸门。产出 ds_env、两口径复核结果与 manifest.env,关键键含 RefCond, model_id, D_M^2, delta_form_ref, u(T_arr_ref), signature, TraceID。
版权与许可(CC BY 4.0)
版权声明:除另有说明外,《能量丝理论》(含文本、图表、插图、符号与公式)的著作权由作者(“屠广林”先生)享有。
许可方式:本作品采用 Creative Commons 署名 4.0 国际许可协议(CC BY 4.0)进行许可;在注明作者与来源的前提下,允许为商业或非商业目的进行复制、转载、节选、改编与再分发。
署名格式(建议):作者:“屠广林”;作品:《能量丝理论》;来源:energyfilament.org;许可证:CC BY 4.0。
首次发布: 2025-11-11|当前版本:v5.1
协议链接:https://creativecommons.org/licenses/by/4.0/