目录文档-技术白皮书18-EFT.WP.Methods.CrossStats v1.0

第12章 多层模型与部分汇聚(Hierarchical/Borrowing Strength)


一句话目标:以层级贝叶斯与混合效应框架统一“跨群体”估计与预测,在小样本与异质场景中通过部分汇聚获得稳健、可审计与量纲一致的统计产出。


I. 范围与对象

  1. 范围
    • 分组与小域估计:g ∈ {1..G},组内观测 y_{g,j},组间共享先验或随机效应。
    • 线性/广义线性混合效应(LMM/GLMM)、Fay-Herriot 小域模型、分层正态均值、层级 Poisson/Binomial 率。
    • 批处理与流式推断,窗口 Delta_t 与时基 tau_mono → ts 映射。
  2. 对象
    • 输入:D = { (y_{g,j}, x_{g,j}, g, ts_{g,j}, m_{g,j}) },单位与量纲、组内方差估计 sigma_g^2 或曝光量 E_g,同步元数据 offset/skew/J。
    • 输出:组级后验 p(theta_g|D)、BLUP/EBLUP、预测 hat{y}_{g,*} 与区间、manifest.stats.hier.*。

II. 名词与变量


III. 公设 P312-*


IV. 最小方程 S312-*

  1. S312-1(分层正态均值)
    • 观测:ybar_g ~ N( theta_g, sigma_g^2 );先验:theta_g ~ N( mu, tau^2 )。
    • 后验均值:E[ theta_g | D ] = w_g * ybar_g + ( 1 - w_g ) * mu,其中 w_g = tau^2 / ( tau^2 + sigma_g^2 )。
    • 后验方差:Var( theta_g | D ) = ( sigma_g^2 * tau^2 ) / ( sigma_g^2 + tau^2 )。
    • 极限:tau^2 → 0 得完全汇聚 theta_g → mu;tau^2 → ∞ 得不汇聚 theta_g ≈ ybar_g。
  2. S312-2(线性混合效应的 BLUP)
    • 模型:y = X beta + Z b + e,b ~ N(0, G),e ~ N(0, R)。
    • V = Z G Z' + R;hat{beta} = ( X' V^{-1} X )^{-1} X' V^{-1} y。
    • hat{b} = G Z' V^{-1} ( y - X hat{beta} )(组级 hat{b_g} 为对应子向量)。
  3. S312-3(REML 边际似然)
    logL_REML = -0.5 * ( log|V| + (y - X beta)' V^{-1} (y - X beta) + const );对 G,R 的参数做数值最大化。
  4. S312-4(GLMM 层级广义线性)
    g( E[y_{g,j}|x] ) = X_{g,j} beta + Z_{g,j} b_g,b_g ~ N(0, G);近似推断用 Laplace/AGHQ 或采样;预测区间来自线性化或后验样本分位。
  5. S312-5(小域 Fay-Herriot EBLUP)
    • y_g = theta_g + e_g,theta_g = X_g' beta + u_g,e_g ~ N(0, V_g),u_g ~ N(0, A)。
    • hat{theta_g} = w_g * y_g + ( 1 - w_g ) * X_g' hat{beta},w_g = A / ( A + V_g )。
  6. S312-6(离散率的层级收缩)
    • Poisson:y_g ~ Poisson( E_g * lambda_g ),lambda_g ~ Gamma(a,b);E[ lambda_g | D ] = ( a + y_g ) / ( b + E_g )。
    • Binomial:k_g ~ Binom( n_g, p_g ),p_g ~ Beta(a,b);E[ p_g | D ] = ( a + k_g ) / ( a + b + n_g )。

V. 统计流程 M30-12(就绪→建模→诊断→发布)


VI. 契约与断言 C30-121x


VII. 实现绑定 I30-*

不变量:len(unique(groups)) == G;G,R 半正定;∑_g w_g / G ∈ [w_lo, w_hi];发布前 contract_report.pass == true。


VIII. 交叉引用


IX. 质量与风控

  1. SLI/SLO
    PI_coverage@0.95 ≥ 0.92;converged == true;cond(Hessian) ≤ cond_max;latency_ms_p99 ≤ 800。
  2. 风险与回退
    • 方差估计逼近边界:使用轮廓似然或正则先验;必要时退化为完全汇聚或不汇聚基线并告警。
    • 极端群组:触发 C30-1214,限制 w_g,扩大区间,并计划额外采样或合并群组。
    • 漂移:监测 w_g 分布与组级残差漂移(见第7章),超阈触发再估计与策略卡。

小结

本章确立分层/混合效应的一致口径,给出 S312-* 的核心估计式与 M30-12 的闭环流程,通过 C30-121x 契约确保方差正定、收缩合理与覆盖度达标,并与时基对齐、到达时两口径与漂移监测协同,产出可审计的组级估计、预测与清单。

版权与许可(CC BY 4.0)

版权声明:除另有说明外,《能量丝理论》(含文本、图表、插图、符号与公式)的著作权由作者(“屠广林”先生)享有。
许可方式:本作品采用 Creative Commons 署名 4.0 国际许可协议(CC BY 4.0)进行许可;在注明作者与来源的前提下,允许为商业或非商业目的进行复制、转载、节选、改编与再分发。
署名格式(建议):作者:“屠广林”;作品:《能量丝理论》;来源:energyfilament.org;许可证:CC BY 4.0。

首次发布: 2025-11-11|当前版本:v5.1
协议链接:https://creativecommons.org/licenses/by/4.0/