16-EFT.WP.Methods.Cleaning v1.0 | 附录E 误差与不确定度传播

目录／文档-技术白皮书（V5.05）／ 16-EFT.WP.Methods.Cleaning v1.0

附录E 误差与不确定度传播

一句话目标：给出从采集、校准、清洗到发布全过程的误差模型与不确定度传播口径，形成可审计的误差预算与覆盖区间 U = k * u_c 并落盘到 manifest 与 contracts。

I. 范围与对象

适用对象
批处理与事件流的字段级、派生量与合成指标（含 q_score, T_arr, delta_form, timing.* 等）。
输入与边界
标称值 x、标准不确定度 u(x)、协方差 cov(x_i, x_j)、单位与量纲 unit(x), dim(x)、时基 tau_mono → ts 的同步参数 offset/skew/J。
输出
组合不确定度 u_c(y)，覆盖不确定度 U(y) = k * u_c(y)，自由度或置信口径，误差预算分解与主导项排序。

II. 术语与符号

标准不确定度：u(x)；组合不确定度：u_c(y)；覆盖不确定度：U(y) = k * u_c(y)。
协方差矩阵：Cov(x) = [ cov(x_i, x_j) ]；相关系数：rho_ij = cov(x_i, x_j) / ( u(x_i) * u(x_j) )。
雅可比：J = ∂f/∂x，其中 y = f(x)。
类型区分：u_A（统计型，样本估计），u_B（非统计型，资料与上限界）。
漂移与系统项：u^2(x) = u_rand^2(x) + u_sys^2(x)。
单位/量纲：unit(·), dim(·)；校核 check_dim( y - f(x) ) = true/false。

III. 误差源清单（最小集）

仪器分辨率与重复性：u_res, u_rep。
校准链溯源残差：u_cal。
环境修正不确定度：u_env（由 corr_env(x; RefCond) 产生）。
时间同步与抖动：u_offset, u_skew, u_J。
数值处理引入：插值、滤波、重采样的 u_num。
模型口径差：到达时两口径 delta_form 的 u(delta_form)。
相关性：同源通道、同一校准或同一滤波窗口产生的相关协方差项。

IV. 线性化传播规则（通用口径）

向量形式
- y = f(x), x ∈ R^n，一阶近似：Cov(y) = J * Cov(x) * J^T，其中 J_ij = ∂y_i/∂x_j。
- 标量输出：u_c^2(y) = grad_x(f)^T * Cov(x) * grad_x(f)。
加权和
y = Σ_i a_i x_i：u_c^2(y) = Σ_i a_i^2 u^2(x_i) + 2 Σ_{i<j} a_i a_j cov(x_i, x_j)。
乘法与比值（相对不确定度）
- y = x * z：( u(y) / |y| ) ≈ sqrt( ( u(x)/x )^2 + ( u(z)/z )^2 + 2 rho_xz ( u(x)/x ) ( u(z)/z ) )。
- y = x / z：( u(y) / |y| ) ≈ sqrt( ( u(x)/x )^2 + ( u(z)/z )^2 - 2 rho_xz ( u(x)/x ) ( u(z)/z ) )。
幂、对数与指数
- y = x^a：( u(y) / |y| ) ≈ |a| * ( u(x) / |x| )。
- y = ln(x)：u(y) ≈ u(x) / |x|。
- y = exp(x)：u(y) ≈ |exp(x)| * u(x)。
卷积/滑动平均
y_t = Σ_i w_i x_{t-i}：u_c^2(y_t) = Σ_i Σ_j w_i w_j cov( x_{t-i}, x_{t-j} )（独立时退化为 Σ_i w_i^2 u^2(x_{t-i})）。

V. 数值积分与路径量的传播

线积分离散求和
- I = ( ∫ g(ell) d ell ) ≈ Σ_i w_i g_i，则
- u_c^2(I) = Σ_i w_i^2 u^2(g_i) + 2 Σ_{i<j} w_i w_j cov(g_i, g_j)。
到达时两口径
- T1 = ( 1 / c_ref ) * ( ∫ n_eff d ell )；T2 = ( ∫ ( n_eff / c_ref ) d ell )。
- 一般式（允许 c_ref = c_ref(ell)）
  1. u_c^2(T1) = ( ∂T1/∂c_ref0 )^2 u^2(c_ref0) + ∬ ( 1 / c_ref0^2 ) cov( n_eff(ell), n_eff(ell') ) d ell d ell' + cross。
  2. u_c^2(T2) = ∬ cov( n_eff(ell)/c_ref(ell), n_eff(ell')/c_ref(ell') ) d ell d ell'。
- 若 c_ref 为常量且与 n_eff 独立：
  1. u_c^2(T1) ≈ ( I_n / c_ref^2 )^2 u^2(c_ref) + ( 1 / c_ref^2 ) u_c^2( I_n )，其中 I_n = ( ∫ n_eff d ell )。
  2. u_c^2(T2) ≈ ( 1 / c_ref^2 ) u_c^2( I_n )。
- 两口径差
  delta_form = | T1 - T2 |，取未取绝对值的差 D = T1 - T2：
  u_c(delta_form) = sqrt( u_c^2(T1) + u_c^2(T2) - 2 cov(T1, T2) )。

VI. 时间映射与同步项传播

仿射映射
- ts = a * tau_mono + b，a = 1 + skew，b = offset。
- u_c^2(ts) = ( tau_mono^2 ) u^2(a) + u^2(b) + a^2 u^2(tau_mono) + 2 tau_mono a cov(a, tau_mono)。
抖动与分桶
当 ts 进入分桶/窗口 Δt 时，报告 J_ms_p99 并以 u(J) ≈ J_ms_p99 / z_p 近似（如 p=0.99 时 z_p ≈ 2.33）。

VII. 环境修正与插补的不确定度

环境修正函数
x' = corr_env(x; RefCond, θ)，一阶传播：
u_c^2(x') = ( ∂x'/∂x )^2 u^2(x) + Σ_j ( ∂x'/∂θ_j )^2 u^2(θ_j) + 2 Σ_j ( ∂x'/∂x )( ∂x'/∂θ_j ) cov( x, θ_j )。
插补
- 线性插值 x'(t) = α x(t0) + (1-α) x(t1)：
  u_c^2 = α^2 u^2( x(t0) ) + (1-α)^2 u^2( x(t1) ) + 2 α(1-α) cov( x(t0), x(t1) )。
- 模型插补（如回归）：额外加入模型方差 u_model^2 与参数协方差项。

VIII. 聚合指标的不确定度

质量分数
q_score = clamp01( Σ_i w_i Q_i )：
u_c^2(q_score) = Σ_i w_i^2 u^2(Q_i) + 2 Σ_{i<j} w_i w_j cov(Q_i, Q_j)。
漂移分数
drift = clamp01( 1 - exp( - beta * d_raw ) )，其中 d_raw = Σ_k alpha_k d_k：
u(drift) ≈ | beta * exp( - beta * d_raw ) | * u( d_raw )。

IX. 自由度与覆盖因子

Welch-Satterthwaite 近似
ν_eff = ( u_c^4 ) / ( Σ_i ( c_i^4 u^4(x_i) / ν_i ) )，其中 c_i = ∂f/∂x_i。
覆盖因子选择
- 正态近似：k_0.95 ≈ 1.96，k_0.99 ≈ 2.58；有限样本用 t(ν_eff) 取 k_p。
- 发布采用 U = k * u_c，并在清单记录 k, p, ν_eff, assumption。

X. 非线性与非高斯情形

Monte Carlo 传播
从 x ~ P_x 采样生成 y = f(x) 的经验分布，取分位数区间作为覆盖区间。
Bootstrap（数据驱动）
对观测重采样估计 u(y) 与偏差校正。
非光滑函数（min/max/clip/threshold）
避免线性化，优先用 MC 或分段线性近似并加上界修正。
稳健口径
用 MAD 或分位差 IQR 估计 u(x)：u(x) ≈ 1.4826 * MAD。

XI. 量纲与单位一致性

规则
- 传播前执行 repair_units；对 f 与 x 校核 check_dim( y - f(x) )。
- 若 dim(u(x)) ≠ dim(x)（应一致）则拒绝发布并标注契约违规。
积分/卷积量纲
dim( ∫ g d ell ) = dim(g) * [L]；dim(W1) = unit(x)；概率度量如 PSI/JS 无量纲。

XII. 审计、报告与落盘键

清单键（建议最小集）
- manifest.uncertainty.fields[k] = { u, U, k_factor, nu_eff, method, unit }。
- manifest.uncertainty.derived[y] = { jacobian_hash, contributors:[(name, share)], U }。
- manifest.timing.uncertainty = { u_offset, u_skew, u_J }。
- manifest.arrival.uncertainty = { u_T1, u_T2, u_delta_form }。
契约断言
contracts.tests += [ "U(y) ≤ U_max(y)", "u(delta_form) ≤ tolU_Tarr", "missing U for all publish keys == false" ]。

XIII. 实现绑定 I10-E（参考接口）

estimate_cov(ds, fields, policy) -> Sigma：基于窗口或模型估计 Cov(x)。
propagate_uncertainty(ds, expr_graph, Sigma, policy) -> u_report：基于雅可比与数值积分计算 u_c, U。
mc_propagate(ds, expr_graph, prior, N) -> samples, intervals：Monte Carlo 传播。
arrival_uncertainty(ds) -> { u_T1, u_T2, u_delta_form }：两口径不确定度计算与协方差估计。
sync_uncertainty(timing) -> { u_offset, u_skew, u_J }：时间同步项评估。
emit_uncertainty_manifest(u_report) -> manifest.patch：生成落盘片段并签名。
assert_uncertainty(u_report, thresholds) -> report：转化为 contracts 并出具通过/失败与主因。

XIV. 用法要点与建议阈值

在批处理：以 W_ref 固化 Sigma，在 W_now 推进 u_c 并对比 U 变化率 |U_now - U_ref| ≤ tol_Udiff。
在事件流：滑动窗口估计 Sigma_t，对 U 用指数平滑，避免告警抖动。
建议阈值
- 到达时差覆盖：U(delta_form) ≤ 0.2 * tol_Tarr。
- 时基覆盖：U(offset) ≤ 0.1 * Δt_publish；U(J) ≤ J_max / 2。
- 关键发布量：U(y)/|y| ≤ r_max（如 r_max = 2%），超限触发降权或回退。

小结

本附录给出从雅可比线性化到 Monte Carlo 的两级传播体系，覆盖路径积分、时间同步、环境修正与聚合指标，统一以 u_c 与 U = k * u_c 发布，并通过 manifest.*.uncertainty 与 contracts 实现可追溯、可审计与可回退的误差治理闭环。

版权与许可：除另有说明外，《能量丝理论》（含文本、图表、插图、符号与公式）的著作权由作者（屠广林）享有。
许可方式（CC BY 4.0）：在注明作者与来源的前提下，允许复制、转载、节选、改编与再分发。
署名格式（建议）：作者：屠广林｜作品：《能量丝理论》｜来源：energyfilament.org｜许可证：CC BY 4.0
验证召集： 作者独立自费、无雇主无资助；下一阶段将优先在最愿意公开讨论、公开复现、公开挑错的环境中推进落地，不限国家。欢迎各国媒体与同行抓住窗口组织验证，并与我们联系。
版本信息： 首次发布：2025-11-11 ｜当前版本：v6.0+5.05