目录 / 文档-技术白皮书 / 05-EFT.WP.Core.Errors v1.0
I. 使用口径与记号
- 残差定义:r def= y - f(x; theta);逐点残差 e_i def= r_i。
- 规模与标准化:s 为 robust scale,默认 s approx 1.4826 * MAD(r);标准化残差 t_i def= e_i / s。
- 权重矩阵与加权准则:R = diag(w_i),chi2 = r^T R r = sum_i w_i * e_i^2。
- 稳健目标:min_theta sum_i rho( t_i ; hyper );影响函数 psi(t) = d rho / d t;权函数 w(t) = psi(t) / t(当 t != 0,t = 0 取极限)。
- IRLS 更新骨架(与 I50-2 对应)
- 计算 t_i = e_i / s;按所选损失得到 w_i = w(t_i; hyper)。
- 以 R = diag(w_i) 解加权最小二乘更新 theta。
- 若启用自适应规模,重估 s,如 s_new = 1.4826 * MAD( r_new );至收敛。
II. 常用损失族(rho / psi / w)速查
- 约定:均以 t = e / s 表示标准化残差;c > 0 为调谐常数(如 Huber、Tukey、Cauchy、Fair、Geman-McClure、Andrews);nu > 0 为 StudentT(nu) 自由度。
- 输出接口对齐:loss_rho(kind, hyper) 与 psi_weight(kind, hyper),其中 hyper 至少包含 {"c":..., "nu":...} 中的相关键。
- L2(Quadratic)
- rho(t) = 0.5 * t^2
- psi(t) = t
- w(t) = 1
- 特性:高效率,抗离群性弱,不降权。
- L1(Absolute)
- rho(t) = |t|
- psi(t) = sign(t)(t = 0 未定义,取 0)
- w(t) = 1 / |t|(数值实现需 max(|t|, eps))
- 特性:对尖峰稳健,解多为稀疏残差;对小噪声不如 L2 高效。
- Huber(c)
- rho(t) = 0.5 * t^2 若 |t| <= c;否则 rho(t) = c * ( |t| - 0.5 * c )
- psi(t) = t 若 |t| <= c;否则 psi(t) = c * sign(t)
- w(t) = 1 若 |t| <= c;否则 w(t) = c / |t|
- 特性:过渡型,兼顾效率与稳健;常用 c ~ 1.345(正态下约 95% 效率)。
- Tukey(Bisquare,c)
- rho(t) = (c^2 / 6) * ( 1 - ( 1 - (t^2 / c^2) )^3 ) 若 |t| <= c;否则 rho(t) = c^2 / 6
- psi(t) = t * ( 1 - (t^2 / c^2) )^2 若 |t| <= c;否则 psi(t) = 0
- w(t) = ( 1 - (t^2 / c^2) )^2 若 |t| <= c;否则 w(t) = 0
- 特性:redescending,强力抑制离群;常用 c ~ 4.685(正态 95% 效率)。
- Cauchy(c)
- rho(t) = (c^2 / 2) * ln( 1 + (t^2 / c^2) )
- psi(t) = t / ( 1 + (t^2 / c^2) )
- w(t) = 1 / ( 1 + (t^2 / c^2) )
- 特性:重尾,软降权,平滑可导。
- StudentT(nu)
- rho(t) = 0.5 * (nu + 1) * ln( 1 + t^2 / nu )
- psi(t) = ( (nu + 1) * t ) / ( nu + t^2 )
- w(t) = (nu + 1) / ( nu + t^2 )
- 特性:由 nu 控制尾厚;nu 小更稳健,nu -> ∞ 近似 L2。
- Fair(c)
- rho(t) = c^2 * ( |t|/c - ln( 1 + |t|/c ) )
- psi(t) = t / ( 1 + |t|/c )
- w(t) = 1 / ( 1 + |t|/c )
- 特性:平滑过渡,较 Huber 更柔和的降权。
- Geman-McClure(c)
- rho(t) = 0.5 * ( t^2 / ( 1 + t^2 / c^2 ) )
- psi(t) = t / ( 1 + t^2 / c^2 )^2
- w(t) = 1 / ( 1 + t^2 / c^2 )^2
- 特性:redescending,强抑制大离群;对初值敏感。
- Andrews(Sine,c)
- rho(t) = (c^2 / 2) * ( 1 - cos( t / c ) ) 若 |t| <= pi * c;否则 rho(t) = c^2 / 2
- psi(t) = sin( t / c ) 若 |t| <= pi * c;否则 psi(t) = 0
- w(t) = sin( t / c ) / ( t / c ) 若 |t| <= pi * c;否则 w(t) = 0
- 特性:redescending,光滑但在 pi c 处截断。
III. 参数与规模的选择
- 规模估计 s
- 基线:s0 = 1.4826 * MAD(r);迭代时可采用 s_new = 1.4826 * MAD( r_new ) 或基于 chi2/dof 校正。
- 当存在显著的加权或缺失:以掩码 m ∈ {0,1} 与权 w 共同修正 MAD。
- 典型调谐常数(正态 95% 效率参考)
- Huber: c ~ 1.345;Tukey: c ~ 4.685;Cauchy: c ~ 2.385;Fair: c ~ 1.399。
- StudentT: nu in [3, 8] 常用;nu = 4 具备更强尾部稳健性。
- 选型建议
- 少量中等离群:Huber。
- 明显重尾或强离群:Tukey / Cauchy / StudentT(nu<=5)。
- 需要平滑导数并兼顾鲁棒:Cauchy / Fair。
- 离群可能大量且远离:Tukey / Geman-McClure / Andrews(注意初始化)。
IV. IRLS 实施细节(与 I50-2 一致)
- 权重更新:w_i <- w( t_i ; hyper ),t_i = e_i / s。
- 线性化模型的雅可比:J = ∂f/∂theta,一次更新近似解 delta_theta 自 J^T R J * delta_theta = J^T R r。
- 收敛判据:||delta_theta|| / max(1, ||theta||) < tol 且 |chi2_new - chi2_old| / max(1, chi2_old) < tol。
- 防数值病:对 L1/Fair 在 |t| < eps 区间采用线性/二阶展开;对 redescending 损失(Tukey、Andrews、Geman-McClure)建议配合离群掩码初始化。
V. 与误差传播、异常筛除的衔接
- 与 I50-3:若 zscore_detect 或 hampel_filter 标记 mask_outlier_i = 1,可将其直接映射为 w_i = 0 或将 c 下调一档以软屏蔽。
- 与 I50-4:稳健拟合后对输入协方差 Cov_x 的修正可基于加权残差 r_bar = r / s 的经验方差,传播到 Cov_y approx J * Cov_x * J^T。
- 与质量指标:chi2/dof、r_bar_max、pass_rate 作为 metrics 进入报告与漂移监测。
VI. 到达时误差 T_arr 的稳健口径(跨卷锚点)
- 观测模型:r_T def= T_meas - ( ∫_gamma ( n_eff / c_ref ) d ell )。
- 稳健拟合:以 rho_T( r_T / s ; hyper ) 作为每次到达的损失,权重 w_T = w( r_T / s ) 进入 R。
- 双口径一致性检查:
- 常量外提:T_arr = ( 1 / c_ref ) * ( ∫_gamma n_eff d ell )
- 一般口径:T_arr = ( ∫_gamma ( n_eff / c_ref ) d ell )
- 报告中记录 delta = |T_arr(form-1) - T_arr(form-2)|;若 delta 超出阈值,则触发 E.T_ARR.CONSISTENCY.DUAL_FORM_MISMATCH 并建议 enforce_arrival_time_convention()。
VII. 快速对照清单(实现与选型)
- kind="L2":高效率;w(t)=1;无稳健性。
- kind="L1":强抗离群;非光滑;配 IRLS 需 eps。
- kind="Huber", c~1.345:折中方案;工业默认。
- kind="Tukey", c~4.685:redescending;强屏蔽远端离群。
- kind="Cauchy", c~2.385:重尾平滑;数值稳定。
- kind="StudentT", nu~4:模型化重尾;nu 可学。
- kind="Fair", c~1.399:软降权;平滑。
- kind="GemanMcClure", c:强 redescending;初值敏感。
- kind="Andrews", c:redescending;在 pi*c 截断。
VIII. 报告与复现字段(与附录A 对齐)
- loss_kind,hyper={"c":..., "nu":...},s,r_bar_max,chi2,pass_rate。
- 若涉及路径积分:记录 gamma_spec、L_gamma、c_ref_version、refcond_id。
- 失败诊断码映射:如 E.MODEL.FIT.NON_CONVERGENCE、E.DATA_QUALITY.OUTLIER.DETECTED、E.T_ARR.CONSISTENCY.DUAL_FORM_MISMATCH。
IX. 数值与实现注意事项
- 光滑性:L1、Huber 在拐点处需次梯度或平滑近似;Tukey/Andrews/Geman-McClure 的 w=0 区间可能导致秩降,需正则化或信任域。
- 溢出与退化:|t| 很大时优先使用 w(t) 形式避免 rho 溢出;对非常小的 |t| 使用泰勒展开稳定 w。
- 终止准则:同时监控参数步长与目标函数相对变化,防止停在权重震荡区。
X. 与 I50- 的最小落地范式*
- loss_rho(e, "Huber", {"c":1.345, "s":s}) → 返回标量损失,用于监控与可视化。
- psi_weight(e, "Tukey", {"c":4.685, "s":s}) → 返回逐点 w_i,配 R = diag(w) 进入解算。
- compute_residual(model, data, params) → 得 e;mad_scale(e) → 得 s;循环 w→theta→s 至收敛。
XI. 参考选择流程(简版决策树)
- 噪声近似正态且离群极少:选 L2 或 Huber(c=1.345)。
- 存在中等比例离群(<10%):选 Huber 或 Cauchy(c≈2.4)。
- 存在重尾/大比例离群:选 Tukey(c=4.685) 或 StudentT(nu∈[3,5])。
- 需要光滑导数与软降权:选 Fair(c≈1.4) 或 Cauchy。
- 离群极端且可容忍截断:选 Tukey / Geman-McClure / Andrews,并加掩码初始化。
版权与许可(CC BY 4.0)
版权声明:除另有说明外,《能量丝理论》(含文本、图表、插图、符号与公式)的著作权由作者(“屠广林”先生)享有。
许可方式:本作品采用 Creative Commons 署名 4.0 国际许可协议(CC BY 4.0)进行许可;在注明作者与来源的前提下,允许为商业或非商业目的进行复制、转载、节选、改编与再分发。
署名格式(建议):作者:“屠广林”;作品:《能量丝理论》;来源:energyfilament.org;许可证:CC BY 4.0。
首次发布: 2025-11-11|当前版本:v5.1
协议链接:https://creativecommons.org/licenses/by/4.0/