目录文档-技术白皮书18-EFT.WP.Methods.CrossStats v1.0

第5章 重采样与交叉验证(Bootstrap/Jackknife/K-fold)


一句话目标:以统一口径实现不确定度评估与泛化误差估计,覆盖 Bootstrap/Jackknife/K-fold 及其加权、分层与时序变体,并将产出纳入 manifest.stats.*。


I. 范围与对象

  1. 范围
    适用于指标 theta = g(D) 的方差/区间估计与模型 f 的泛化误差评估。包含加权样本、复杂抽样、分层与时序阻塞场景。
  2. 对象
    • 输入:数据 D = { (x_i, y_i, w_i, t_i) },抽样信息 pi(i) 或复制权重,窗口 Delta_t,度量函数 L( f(x), y ),折数 K,抽样次数 B。
    • 输出:{est, SE, CI}、cv_score, var_cv, 诊断与契约报告 report.C30-5xx。
    • 约束:sum(w_i)/N_hat ≈ 1;所有窗口运算在 tau_mono 上评估,以 ts 发布;涉及 T_arr 的量并行记录两口径与 delta_form。

II. 名词与变量


III. 公设 P305-*


IV. 最小方程 S305-*

  1. S305-1(Bootstrap 点估计与方差)
    • theta^{*b} = g( D^{*b} ), b = 1..B;hat{theta}_boot = ( 1 / B ) * ( ∑_{b=1}^B theta^{*b} )。
    • Var_boot( hat{theta} ) = ( 1 / (B - 1) ) * ( ∑ ( theta^{*b} - hat{theta}_boot )^2 ),SE_boot = sqrt( Var_boot )。
  2. S305-2(Bootstrap 百分位与 BCa 区间)
    • 百分位区间:CI = [ q_{alpha/2}( theta^{*} ), q_{1-alpha/2}( theta^{*} ) ]。
    • BCa:CI = [ q_{Phi( z0 + ( z_{alpha/2} / ( 1 - a_hat * ( z_{alpha/2} - z0 ) ) ) )}, q_{Phi( z0 + ( z_{1-alpha/2} / ( 1 - a_hat * ( z_{1-alpha/2} - z0 ) ) ) )} ],
      其中 z0 为偏倚校正项,a_hat 为加速项,Phi 正态分布函数。
  3. S305-3(Jackknife 伪值、偏倚与方差)
    • 留一量:hat{theta}_{(i)} = g( D \ {i} ),均值 bar{theta}_{(.)} = ( 1 / N ) * ( ∑ hat{theta}_{(i)} )。
    • 偏倚估计:bias_hat = ( N - 1 ) * ( bar{theta}_{(.)} - hat{theta} )。
    • 方差:Var_jack( hat{theta} ) = ( ( N - 1 ) / N ) * ( ∑ ( hat{theta}_{(i)} - bar{theta}_{(.)} )^2 ),SE_jack = sqrt( Var_jack )。
  4. S305-4(K-fold 交叉验证分数)
    • cv_score = ( 1 / K ) * ( ∑_{k=1}^K ( 1 / |S_k| ) * ( ∑_{i ∈ S_k} L( f_{-k}( x_i ), y_i ) ) )。
    • 重复 K-fold 的方差:Var( cv_score ) ≈ Var( scores_over_repeats )。
  5. S305-5(分层/加权自助)
    分层:对每层 h 独立抽样大小 n_h,再合并;加权自助:m_i ~ Multinomial( N; p_i ∝ w_i ) 或 m_i ~ Poisson( w_i )。
  6. S305-6(时序阻塞 CV)
    块划分 B_j 满足时间不逆向;滚动验证得分:cv_ts = ( 1 / J ) * ( ∑ L_j ),L_j 为第 j 块外推损失。
  7. S305-7(交叉拟合 cross-fitting,用于因果/双稳健)
    将数据分 K 折,估计 eta_{-k} 于训练折,评估目标折的影响函数 phi( W_i; eta_{-k} ),
    hat{theta} = ( 1 / N ) * ( ∑ phi( W_i; eta_{-k(i)} ) ),SE 由折间方差或自助法给出。
  8. S305-8(到达时两口径差)
    delta_form = | ( 1 / c_ref ) * ( ∫ n_eff d ell ) - ( ∫ ( n_eff / c_ref ) d ell ) |,并断言 delta_form ≤ tol_Tarr。

V. 统计流程 M30-5(就绪→抽样/分折→估计→诊断→发布)


VI. 契约与断言(C30-5xx)


VII. 实现绑定 I30-*

不变量:unique(per_fold.id);alpha_used ≤ alpha_budget;sum(weights_boot)/N_hat ≈ 1;no_leakage == true。


VIII. 交叉引用


IX. 质量与风控

  1. SLI/SLO
    SE_gap = | SE_boot - SE_ref | / SE_ref,width_p50/p90,cv_var,leakage_flags,latency_ms_p99,B_utilization。
  2. 风控与回退
    • 触发:C30-502/503/504/506/507 失败或 cv_var > tol_cv_var。
    • 动作:提高 B 或重复次数;切换到 BCa/复制权重;改用阻塞 CV;降级发布为“实验”,回退上一签名清单并告警。

小结

本章以 P305-* 约束重采样与交叉验证的统一语义,给出 S305-* 计算式,落地 M30-5 的就绪→估计→诊断→发布闭环,并通过 I30-5* 实现分层/加权/时序场景的一致化与可审计产出。

版权与许可(CC BY 4.0)

版权声明:除另有说明外,《能量丝理论》(含文本、图表、插图、符号与公式)的著作权由作者(“屠广林”先生)享有。
许可方式:本作品采用 Creative Commons 署名 4.0 国际许可协议(CC BY 4.0)进行许可;在注明作者与来源的前提下,允许为商业或非商业目的进行复制、转载、节选、改编与再分发。
署名格式(建议):作者:“屠广林”;作品:《能量丝理论》;来源:energyfilament.org;许可证:CC BY 4.0。

首次发布: 2025-11-11|当前版本:v5.1
协议链接:https://creativecommons.org/licenses/by/4.0/