05-EFT.WP.Core.Errors v1.0 | 第2章残差模型与稳健估计

目录／文档-技术白皮书（V5.05）／ 05-EFT.WP.Core.Errors v1.0

第2章残差模型与稳健估计

I. 定义与基本口径

残差定义：r def= y - f(x; theta)。恒等：r ≡ y - f(x; theta)。
标准化残差：r_bar_i def= r_i / sigma_i，若未知 sigma_i，以稳健尺度 s 替代，记 e_i def= r_i / s。
加权二次准则：J_R(theta) def= r^T R r = ∑_i w_i * r_i^2，其中 R = diag(w)。
量纲守恒：dim(r) = dim(y)，check_dim( y - f(x; theta) ) 必过；若使用 r_bar 或 e，其为无量纲。
条件独立（可选近似）：当观测独立时写作 approx independence，并令 R 对角。

II. 稳健损失 rho 与影响函数 psi

定义：rho(e; hyper) 为无量纲损失，psi(e) def= d rho / d e 为影响函数，权函数 w_psi(e) def= psi(e) / e（当 e = 0 时取极限值）。
家族汇总（kind ∈ {"L2","L1","Huber","Tukey","StudentT"}）：
- L2：rho(e) = 0.5 * e^2；psi(e) = e；w_psi(e) = 1。
- L1：rho(e) = |e|；psi(e) = sign(e)（e = 0 处子梯度 in [-1,1]）；w_psi(e) approx 1 / max(|e|, epsilon)。
- Huber(delta)：
  1. 若 |e| ≤ delta：rho = 0.5 * e^2，psi = e；
  2. 若 |e| > delta：rho = delta * ( |e| - 0.5 * delta )，psi = delta * sign(e)；
  3. w_psi(e) = min(1, delta / |e|)。
- Tukey(c)（bisquare）：
  1. 若 |e| < c：rho = (c^2 / 6) * [ 1 - ( 1 - (e/c)^2 )^3 ]，psi = e * ( 1 - (e/c)^2 )^2；
  2. 若 |e| ≥ c：rho = c^2 / 6，psi = 0；
  3. w_psi(e) = ( 1 - (e/c)^2 )^2（区间内）。
- StudentT(nu)（重尾，nu > 0）：
  1. rho = 0.5 * (nu + 1) * log( 1 + (e^2)/nu )；
  2. psi = ( (nu + 1) * e ) / ( nu + e^2 )；
  3. w_psi(e) = (nu + 1) / ( nu + e^2 )。
超参数经验口径：Huber(delta ≈ 1.345) 与 Tukey(c ≈ 4.685) 在高斯下具 ≈95% 效率；StudentT(nu ∈ [3,8]) 适配 5%–15% 污染。

III. 稳健尺度 s 与标准化

尺度估计（高斯一致）：s_MAD def= 1.4826 * median( | r_i - median(r) | )。
Huber 尺度（一步法）：s_Huber^2 approx ( 1 / n_eff ) * ∑_i min( r_i^2, (delta * s_prev)^2 )，其中 n_eff = ∑_i 1。
标准化：e_i = r_i / s；异方差时用 e_i = r_i / ( s * sigma_i ) 或直接令 W = diag( w_psi(e_i) / sigma_i^2 )。
规模回收：场景末尾将临时尺度 tmp_s 回收，保留报告尺度 s。

IV. 加权—稳健等价与 IRLS 流程 M72-1

等价关系（恒等）：对任意 rho，存在 w_psi(e) 使得
argmin_theta ∑_i rho( r_i / s ) 与 argmin_theta ∑_i w_i * r_i^2 等价，
其中 w_i = w_base_i * w_psi( r_i / s )，w_base_i = 1 / sigma_i^2（若未知取 1）。
迭代重加权最小二乘（IRLS）：
- 初始化 theta^(0)（如 MLE/L2），估计 s^(0) = s_MAD。
- 计算残差 r(theta^(k)) 与标准化 e = r / s^(k)。
- 权重更新：w_i^(k) = w_base_i * w_psi( e_i )。
- 高斯—牛顿步：解 ( J^T W J + lambda * I ) * Δ = J^T W r，更新 theta^(k+1) = theta^(k) + Δ。
- 尺度更新：用 s_MAD 或 Huber 尺度得到 s^(k+1)。
- 收敛判据：||Δ|| / (||theta|| + eps) < tol 或 |J_R^(k+1) - J_R^(k)| / J_R^(k) < tol。
- 产出：theta_hat、s_hat、权重 w、诊断量 e、chi2 = r^T R r。
数值注意：L1 在 e ≈ 0 处采用 w_psi(e) = 1 / max(|e|, epsilon)；lambda 采用信赖域或 Levenberg–Marquardt 策略。

V. 重尾模型 StudentT 的 MLE 与梯度

对数似然（负号省略常数）：ℓ(theta, s, nu) = - ∑_i 0.5*(nu+1) * log( 1 + (e_i^2)/nu ) - n * log(s)，e_i = r_i / s。
一阶条件：
- 对 theta：∂ℓ/∂theta ≈ J^T * W_T * r / s^2，其中 W_T = diag( (nu+1)/(nu + e^2) )。
- 对 s：∂ℓ/∂s = -n/s + (1/s) * ∑_i ( (nu+1) * e_i^2 ) / ( nu + e_i^2 )。
- nu 可固定或用网格/EM 更新。
与 IRLS 一致：W_T 即 w_psi 的重尾权。

VI. 异方差与权重建模

已知噪声：给定 sigma_i 时，W = diag( w_psi(e_i) / sigma_i^2 )。
经验噪声：可用窗口或分组估计 sigma_g，并令 sigma_i = sigma_g(i)。
方差函数：sigma_i^2 def= g(z_i; phi)（如 sigma^2 ∝ |f(x; theta)|^α），与主问题交替更新。
相关性扩展：当存在短程相关时，R 可取带状或基于核的近似；同期需声明 approx independence 不成立。

VII. 到达时 T_arr 场景（跨卷一致性示例）

模型口径一（常量外提）：T_arr = ( 1 / c_ref ) * ( ∫_gamma n_eff d ell )。
模型口径二（一般）：T_arr = ( ∫_gamma ( n_eff / c_ref ) d ell )。
残差：r_T def= y_T - T_arr(x; theta)，须显式声明路径 gamma(ell) 与测度 d ell。
标准化与权重：
- 若报告不确定度 U_T，取 sigma_T approx U_T / k，e_T = r_T / sigma_T；
- 权重 w_T = w_psi(e_T) / sigma_T^2 并入 R。
合规检查：任何混用两口径或遗漏路径/测度时，触发 E-INT-ARR-003；若 ( n_eff / c_ref ) * d ell 未无量纲化，触发 E-MET-DIM-001。

VIII. 参量协方差与不确定度链接

高斯近似：Cov_theta approx s^2 * ( J^T W J )^-1。
Sandwich 近似（稳健）：Cov_theta approx A^-1 * B * A^-1，其中
- A def= J^T W J；
- B def= J^T * diag( psi(e)^2 ) * J / s^2（approx）。
输出映射不确定度：对测量量 g(theta)，u_c^2(g) approx ( ∂g/∂theta ) * Cov_theta * ( ∂g/∂theta )^T；扩展不确定度 U = k * u_c（与《Core.Metrology》第5章口径一致）。

IX. 超参数选择与模型比较

经验默认：Huber(delta=1.345)、Tukey(c=4.685)、StudentT(nu=5)。
选择准则：
- 最小化稳健尺度 s 或稳健 AIC（以 ∑ rho(e) 近似负对数似然）；
- 交叉验证：以 RMSE、MAE、median(|r|)、s 综合；
- 离群占比 > 10% 时倾向 Tukey 或 StudentT。
早停与再权重：若 max_i |e_i| 在迭代中持续上升，降低 lambda 并重置尺度。

X. 实现绑定与接口映射（I50 2）

compute_residual(model, data, params) -> r：确保 dim(r)=dim(y)；必要时调用 check_dim。
loss_rho(e, kind, hyper) -> float：传入无量纲 e 与超参数集合 {delta|c|nu}。
psi_weight(e, kind, hyper) -> array：返回 w_psi(e)；在异方差下外乘 1 / sigma^2。
典型调用序列：
- r = compute_residual(...)；s = s_MAD(r)；e = r / s；
- w = psi_weight(e, kind, hyper)；W = diag( w / sigma^2 )（若给定 sigma）；
- 以 IRLS 更新 theta 与 s，迭代至收敛；
- 计算 Cov_theta 与报告量 U（经《Core.Metrology》第5章管线）。

XI. 诊断与报告最小集合

残差摘要：mean(r)、median(r)、RMSE、MAE、s、max|e|、离群率。
权重概览：min(w)、p50(w)、p90(w)、被截断样本数（Tukey 的 |e| ≥ c）。
质量指标：chi2 = r^T R r、R^2（若适用）、PSNR（信号类）。
合规模块：check_dim 记录、RefCond 与 U 引用、口径说明（T_arr 的 gamma(ell) 与 d ell）。
产出字段：theta_hat、Cov_theta、s_hat、kind/hyper、policy_version、traceability_chain。

XII. 本章输出与衔接

输出：rho/psi/w_psi 家族定义、尺度估计口径、IRLS 流程 M72-1、重尾 StudentT 梯度、异方差权重、Cov_theta 近似、T_arr 一致性示例。
衔接：下一章进入误差传播与预算，将以本章 Cov_theta 与 e 为输入，展开 propagate_error_delta 与 propagate_error_mc。

版权与许可：除另有说明外，《能量丝理论》（含文本、图表、插图、符号与公式）的著作权由作者（屠广林）享有。
许可方式（CC BY 4.0）：在注明作者与来源的前提下，允许复制、转载、节选、改编与再分发。
署名格式（建议）：作者：屠广林｜作品：《能量丝理论》｜来源：energyfilament.org｜许可证：CC BY 4.0
验证召集： 作者独立自费、无雇主无资助；下一阶段将优先在最愿意公开讨论、公开复现、公开挑错的环境中推进落地，不限国家。欢迎各国媒体与同行抓住窗口组织验证，并与我们联系。
版本信息： 首次发布：2025-11-11 ｜当前版本：v6.0+5.05