目录 / 文档-技术白皮书 / 16-EFT.WP.Methods.Cleaning v1.0
一句话目标:给出从采集、校准、清洗到发布全过程的误差模型与不确定度传播口径,形成可审计的误差预算与覆盖区间 U = k * u_c 并落盘到 manifest 与 contracts。
I. 范围与对象
- 适用对象
批处理与事件流的字段级、派生量与合成指标(含 q_score, T_arr, delta_form, timing.* 等)。 - 输入与边界
标称值 x、标准不确定度 u(x)、协方差 cov(x_i, x_j)、单位与量纲 unit(x), dim(x)、时基 tau_mono → ts 的同步参数 offset/skew/J。 - 输出
组合不确定度 u_c(y),覆盖不确定度 U(y) = k * u_c(y),自由度或置信口径,误差预算分解与主导项排序。
II. 术语与符号
- 标准不确定度:u(x);组合不确定度:u_c(y);覆盖不确定度:U(y) = k * u_c(y)。
- 协方差矩阵:Cov(x) = [ cov(x_i, x_j) ];相关系数:rho_ij = cov(x_i, x_j) / ( u(x_i) * u(x_j) )。
- 雅可比:J = ∂f/∂x,其中 y = f(x)。
- 类型区分:u_A(统计型,样本估计),u_B(非统计型,资料与上限界)。
- 漂移与系统项:u^2(x) = u_rand^2(x) + u_sys^2(x)。
- 单位/量纲:unit(·), dim(·);校核 check_dim( y - f(x) ) = true/false。
III. 误差源清单(最小集)
- 仪器分辨率与重复性:u_res, u_rep。
- 校准链溯源残差:u_cal。
- 环境修正不确定度:u_env(由 corr_env(x; RefCond) 产生)。
- 时间同步与抖动:u_offset, u_skew, u_J。
- 数值处理引入:插值、滤波、重采样的 u_num。
- 模型口径差:到达时两口径 delta_form 的 u(delta_form)。
- 相关性:同源通道、同一校准或同一滤波窗口产生的相关协方差项。
IV. 线性化传播规则(通用口径)
- 向量形式
- y = f(x), x ∈ R^n,一阶近似:Cov(y) = J * Cov(x) * J^T,其中 J_ij = ∂y_i/∂x_j。
- 标量输出:u_c^2(y) = grad_x(f)^T * Cov(x) * grad_x(f)。
- 加权和
y = Σ_i a_i x_i:u_c^2(y) = Σ_i a_i^2 u^2(x_i) + 2 Σ_{i<j} a_i a_j cov(x_i, x_j)。 - 乘法与比值(相对不确定度)
- y = x * z:( u(y) / |y| ) ≈ sqrt( ( u(x)/x )^2 + ( u(z)/z )^2 + 2 rho_xz ( u(x)/x ) ( u(z)/z ) )。
- y = x / z:( u(y) / |y| ) ≈ sqrt( ( u(x)/x )^2 + ( u(z)/z )^2 - 2 rho_xz ( u(x)/x ) ( u(z)/z ) )。
- 幂、对数与指数
- y = x^a:( u(y) / |y| ) ≈ |a| * ( u(x) / |x| )。
- y = ln(x):u(y) ≈ u(x) / |x|。
- y = exp(x):u(y) ≈ |exp(x)| * u(x)。
- 卷积/滑动平均
y_t = Σ_i w_i x_{t-i}:u_c^2(y_t) = Σ_i Σ_j w_i w_j cov( x_{t-i}, x_{t-j} )(独立时退化为 Σ_i w_i^2 u^2(x_{t-i}))。
V. 数值积分与路径量的传播
- 线积分离散求和
- I = ( ∫ g(ell) d ell ) ≈ Σ_i w_i g_i,则
- u_c^2(I) = Σ_i w_i^2 u^2(g_i) + 2 Σ_{i<j} w_i w_j cov(g_i, g_j)。
- 到达时两口径
- T1 = ( 1 / c_ref ) * ( ∫ n_eff d ell );T2 = ( ∫ ( n_eff / c_ref ) d ell )。
- 一般式(允许 c_ref = c_ref(ell))
- u_c^2(T1) = ( ∂T1/∂c_ref0 )^2 u^2(c_ref0) + ∬ ( 1 / c_ref0^2 ) cov( n_eff(ell), n_eff(ell') ) d ell d ell' + cross。
- u_c^2(T2) = ∬ cov( n_eff(ell)/c_ref(ell), n_eff(ell')/c_ref(ell') ) d ell d ell'。
- 若 c_ref 为常量且与 n_eff 独立:
- u_c^2(T1) ≈ ( I_n / c_ref^2 )^2 u^2(c_ref) + ( 1 / c_ref^2 ) u_c^2( I_n ),其中 I_n = ( ∫ n_eff d ell )。
- u_c^2(T2) ≈ ( 1 / c_ref^2 ) u_c^2( I_n )。
- 两口径差
delta_form = | T1 - T2 |,取未取绝对值的差 D = T1 - T2:
u_c(delta_form) = sqrt( u_c^2(T1) + u_c^2(T2) - 2 cov(T1, T2) )。
VI. 时间映射与同步项传播
- 仿射映射
- ts = a * tau_mono + b,a = 1 + skew,b = offset。
- u_c^2(ts) = ( tau_mono^2 ) u^2(a) + u^2(b) + a^2 u^2(tau_mono) + 2 tau_mono a cov(a, tau_mono)。
- 抖动与分桶
当 ts 进入分桶/窗口 Δt 时,报告 J_ms_p99 并以 u(J) ≈ J_ms_p99 / z_p 近似(如 p=0.99 时 z_p ≈ 2.33)。
VII. 环境修正与插补的不确定度
- 环境修正函数
x' = corr_env(x; RefCond, θ),一阶传播:
u_c^2(x') = ( ∂x'/∂x )^2 u^2(x) + Σ_j ( ∂x'/∂θ_j )^2 u^2(θ_j) + 2 Σ_j ( ∂x'/∂x )( ∂x'/∂θ_j ) cov( x, θ_j )。 - 插补
- 线性插值 x'(t) = α x(t0) + (1-α) x(t1):
u_c^2 = α^2 u^2( x(t0) ) + (1-α)^2 u^2( x(t1) ) + 2 α(1-α) cov( x(t0), x(t1) )。 - 模型插补(如回归):额外加入模型方差 u_model^2 与参数协方差项。
- 线性插值 x'(t) = α x(t0) + (1-α) x(t1):
VIII. 聚合指标的不确定度
- 质量分数
q_score = clamp01( Σ_i w_i Q_i ):
u_c^2(q_score) = Σ_i w_i^2 u^2(Q_i) + 2 Σ_{i<j} w_i w_j cov(Q_i, Q_j)。 - 漂移分数
drift = clamp01( 1 - exp( - beta * d_raw ) ),其中 d_raw = Σ_k alpha_k d_k:
u(drift) ≈ | beta * exp( - beta * d_raw ) | * u( d_raw )。
IX. 自由度与覆盖因子
- Welch-Satterthwaite 近似
ν_eff = ( u_c^4 ) / ( Σ_i ( c_i^4 u^4(x_i) / ν_i ) ),其中 c_i = ∂f/∂x_i。 - 覆盖因子选择
- 正态近似:k_0.95 ≈ 1.96,k_0.99 ≈ 2.58;有限样本用 t(ν_eff) 取 k_p。
- 发布采用 U = k * u_c,并在清单记录 k, p, ν_eff, assumption。
X. 非线性与非高斯情形
- Monte Carlo 传播
从 x ~ P_x 采样生成 y = f(x) 的经验分布,取分位数区间作为覆盖区间。 - Bootstrap(数据驱动)
对观测重采样估计 u(y) 与偏差校正。 - 非光滑函数(min/max/clip/threshold)
避免线性化,优先用 MC 或分段线性近似并加上界修正。 - 稳健口径
用 MAD 或分位差 IQR 估计 u(x):u(x) ≈ 1.4826 * MAD。
XI. 量纲与单位一致性
- 规则
- 传播前执行 repair_units;对 f 与 x 校核 check_dim( y - f(x) )。
- 若 dim(u(x)) ≠ dim(x)(应一致)则拒绝发布并标注契约违规。
- 积分/卷积量纲
dim( ∫ g d ell ) = dim(g) * [L];dim(W1) = unit(x);概率度量如 PSI/JS 无量纲。
XII. 审计、报告与落盘键
- 清单键(建议最小集)
- manifest.uncertainty.fields[k] = { u, U, k_factor, nu_eff, method, unit }。
- manifest.uncertainty.derived[y] = { jacobian_hash, contributors:[(name, share)], U }。
- manifest.timing.uncertainty = { u_offset, u_skew, u_J }。
- manifest.arrival.uncertainty = { u_T1, u_T2, u_delta_form }。
- 契约断言
contracts.tests += [ "U(y) ≤ U_max(y)", "u(delta_form) ≤ tolU_Tarr", "missing U for all publish keys == false" ]。
XIII. 实现绑定 I10-E(参考接口)
- estimate_cov(ds, fields, policy) -> Sigma:基于窗口或模型估计 Cov(x)。
- propagate_uncertainty(ds, expr_graph, Sigma, policy) -> u_report:基于雅可比与数值积分计算 u_c, U。
- mc_propagate(ds, expr_graph, prior, N) -> samples, intervals:Monte Carlo 传播。
- arrival_uncertainty(ds) -> { u_T1, u_T2, u_delta_form }:两口径不确定度计算与协方差估计。
- sync_uncertainty(timing) -> { u_offset, u_skew, u_J }:时间同步项评估。
- emit_uncertainty_manifest(u_report) -> manifest.patch:生成落盘片段并签名。
- assert_uncertainty(u_report, thresholds) -> report:转化为 contracts 并出具通过/失败与主因。
XIV. 用法要点与建议阈值
- 在批处理:以 W_ref 固化 Sigma,在 W_now 推进 u_c 并对比 U 变化率 |U_now - U_ref| ≤ tol_Udiff。
- 在事件流:滑动窗口估计 Sigma_t,对 U 用指数平滑,避免告警抖动。
- 建议阈值
- 到达时差覆盖:U(delta_form) ≤ 0.2 * tol_Tarr。
- 时基覆盖:U(offset) ≤ 0.1 * Δt_publish;U(J) ≤ J_max / 2。
- 关键发布量:U(y)/|y| ≤ r_max(如 r_max = 2%),超限触发降权或回退。
小结
本附录给出从雅可比线性化到 Monte Carlo 的两级传播体系,覆盖路径积分、时间同步、环境修正与聚合指标,统一以 u_c 与 U = k * u_c 发布,并通过 manifest.*.uncertainty 与 contracts 实现可追溯、可审计与可回退的误差治理闭环。版权与许可(CC BY 4.0)
版权声明:除另有说明外,《能量丝理论》(含文本、图表、插图、符号与公式)的著作权由作者(“屠广林”先生)享有。
许可方式:本作品采用 Creative Commons 署名 4.0 国际许可协议(CC BY 4.0)进行许可;在注明作者与来源的前提下,允许为商业或非商业目的进行复制、转载、节选、改编与再分发。
署名格式(建议):作者:“屠广林”;作品:《能量丝理论》;来源:energyfilament.org;许可证:CC BY 4.0。
首次发布: 2025-11-11|当前版本:v5.1
协议链接:https://creativecommons.org/licenses/by/4.0/