目录 / 文档-技术白皮书 / 18-EFT.WP.Methods.CrossStats v1.0
第12章 多层模型与部分汇聚(Hierarchical/Borrowing Strength)
一句话目标:以层级贝叶斯与混合效应框架统一“跨群体”估计与预测,在小样本与异质场景中通过部分汇聚获得稳健、可审计与量纲一致的统计产出。
I. 范围与对象
- 范围
- 分组与小域估计:g ∈ {1..G},组内观测 y_{g,j},组间共享先验或随机效应。
- 线性/广义线性混合效应(LMM/GLMM)、Fay-Herriot 小域模型、分层正态均值、层级 Poisson/Binomial 率。
- 批处理与流式推断,窗口 Delta_t 与时基 tau_mono → ts 映射。
- 对象
- 输入:D = { (y_{g,j}, x_{g,j}, g, ts_{g,j}, m_{g,j}) },单位与量纲、组内方差估计 sigma_g^2 或曝光量 E_g,同步元数据 offset/skew/J。
- 输出:组级后验 p(theta_g|D)、BLUP/EBLUP、预测 hat{y}_{g,*} 与区间、manifest.stats.hier.*。
II. 名词与变量
- 组与样本量:g ∈ {1..G}, n_g, ybar_g = ( 1 / n_g ) * ∑_j y_{g,j}。
- 层级参数:theta_g(组级真实量),总体 mu,方差 tau^2。
- 噪声与方差:组内 sigma_g^2,观测误差 epsilon_{g,j}。
- 混合效应:y = X beta + Z b + e;随机效应 b ~ N(0, G),残差 e ~ N(0, R)。
- GLMM 联结:g( E[y|x] ) = X beta + Z b。
- Shrinkage 因子与权重:w_g、B_g。
- 小域模型:y_g = theta_g + e_g,theta_g = X_g' beta + u_g。
III. 公设 P312-*
- P312-1(交换性与部分汇聚):在组内条件于 theta_g 可交换;跨组以先验或随机效应共享统计强度。
- P312-2(先验显式与方差正定):p(mu), p(tau^2) 明确;tau^2 ≥ 0,G、R 半正定。
- P312-3(可识别与中心化):含截距时对变动截距施加和为零或先验中心化;数值上对 X,Z 做列中心以降低相关性。
- P312-4(时基与到达时):估计窗口在 tau_mono,发布以 ts;若涉及到达时量 T_arr,同步记录两口径与 delta_form。
- P312-5(单位与量纲):所有估计与预测满足 check_dim( y - f(x) );比率与率型量引入曝光或基数并声明单位。
- P312-6(极端群组保护):对 n_g 很小或 sigma_g^2 很大的群组启用更强的汇聚与区间扩张策略。
IV. 最小方程 S312-*
- S312-1(分层正态均值)
- 观测:ybar_g ~ N( theta_g, sigma_g^2 );先验:theta_g ~ N( mu, tau^2 )。
- 后验均值:E[ theta_g | D ] = w_g * ybar_g + ( 1 - w_g ) * mu,其中 w_g = tau^2 / ( tau^2 + sigma_g^2 )。
- 后验方差:Var( theta_g | D ) = ( sigma_g^2 * tau^2 ) / ( sigma_g^2 + tau^2 )。
- 极限:tau^2 → 0 得完全汇聚 theta_g → mu;tau^2 → ∞ 得不汇聚 theta_g ≈ ybar_g。
- S312-2(线性混合效应的 BLUP)
- 模型:y = X beta + Z b + e,b ~ N(0, G),e ~ N(0, R)。
- V = Z G Z' + R;hat{beta} = ( X' V^{-1} X )^{-1} X' V^{-1} y。
- hat{b} = G Z' V^{-1} ( y - X hat{beta} )(组级 hat{b_g} 为对应子向量)。
- S312-3(REML 边际似然)
logL_REML = -0.5 * ( log|V| + (y - X beta)' V^{-1} (y - X beta) + const );对 G,R 的参数做数值最大化。 - S312-4(GLMM 层级广义线性)
g( E[y_{g,j}|x] ) = X_{g,j} beta + Z_{g,j} b_g,b_g ~ N(0, G);近似推断用 Laplace/AGHQ 或采样;预测区间来自线性化或后验样本分位。 - S312-5(小域 Fay-Herriot EBLUP)
- y_g = theta_g + e_g,theta_g = X_g' beta + u_g,e_g ~ N(0, V_g),u_g ~ N(0, A)。
- hat{theta_g} = w_g * y_g + ( 1 - w_g ) * X_g' hat{beta},w_g = A / ( A + V_g )。
- S312-6(离散率的层级收缩)
- Poisson:y_g ~ Poisson( E_g * lambda_g ),lambda_g ~ Gamma(a,b);E[ lambda_g | D ] = ( a + y_g ) / ( b + E_g )。
- Binomial:k_g ~ Binom( n_g, p_g ),p_g ~ Beta(a,b);E[ p_g | D ] = ( a + k_g ) / ( a + b + n_g )。
V. 统计流程 M30-12(就绪→建模→诊断→发布)
- 就绪
time_align_for_stats 完成 tau_mono 对齐;声明 unit(y), dim(y);计算 sigma_g^2 或 E_g;处理缺失 m ∈ {0,1}。 - 模型选择
小样本或汇总量场景优先 S312-1/5/6;原始逐点数据优先 S312-2/4;根据响应族选择 identity/logit/log 联结。 - 估计
LMM/GLMM 估计 G,R 与 beta;或估计 (mu, tau^2)、A、先验超参数 (a,b);采用 REML/Laplace/采样。 - 诊断
收缩曲线 w_g 与 sigma_g^2 单调性;残差与校准;方差分解;极端群组区间宽度。 - 预测与不确定度
生成 hat{theta_g}、hat{y}_{g,*} 与区间;给出 U = k * u_c 或后验分位。 - 发布与清单
emit_hier_manifest 落盘:超参数、w_g 概要、覆盖度、契约评估、TraceID、offset/skew/J 与(若用)delta_form。
VI. 契约与断言 C30-121x
- C30-1211(方差正定):tau^2 ≥ 0,eigmin(G) ≥ 0,eigmin(R) ≥ 0;优化收敛 grad_norm ≤ tol_grad。
- C30-1212(收缩单调):dw_g / d sigma_g^2 ≤ 0(经验检验:相关系数 corr(w_g, sigma_g^2) ≤ 0)。
- C30-1213(覆盖度):组级区间 PI_coverage@q ∈ [q - tol_cov, q + tol_cov]。
- C30-1214(极端群组保护):若 n_g < n_min 或 sigma_g^2 > s_max,则 w_g ≤ w_cap_small 且区间扩大因子 ≥ f_min。
- C30-1215(单位与量纲):unit(hat{theta_g}) == unit(y);率型满足 check_dim( y / exposure )。
- C30-1216(时基一致与到达时):若模型含 T_arr,断言 delta_form ≤ tol_Tarr;offset/skew/J ≤ policy.max。
VII. 实现绑定 I30-*
- I30-121 fit_hier_normal_means(groups, ybar, sigma2, prior) -> posterior
- I30-122 fit_lmm(formula, ds, method) -> {beta, G, R, BLUP}
- I30-123 fit_glmm(formula, family, link, method) -> model
- I30-124 fay_herriot(y, V, X) -> {beta, A, theta_hat, w}
- I30-125 hier_poisson_rate(y, E, a, b) -> posterior
- I30-126 shrinkage_summary(posterior) -> {w_stats, coverage}
- I30-127 predict_hier(model, newdata, level, interval) -> {pred, PI}
- I30-128 evaluate_hier_contracts(report, rules) -> contract_report
- I30-129 emit_hier_manifest(results, policy) -> manifest.stats.hier
不变量:len(unique(groups)) == G;G,R 半正定;∑_g w_g / G ∈ [w_lo, w_hi];发布前 contract_report.pass == true。
VIII. 交叉引用
- 单位与量纲一致化:见《Methods.Cleaning v1.0》第4章。
- 时间轴与同步:见《Methods.Cleaning v1.0》第5章。
- 多重比较与错误控制(多组比较的族级预算):见本卷第6章。
- 元分析与研究合成:见本卷第13章。
- 成像跨域校准迁移:见《Methods.Imaging v1.0》第9章与第14章。
IX. 质量与风控
- SLI/SLO
PI_coverage@0.95 ≥ 0.92;converged == true;cond(Hessian) ≤ cond_max;latency_ms_p99 ≤ 800。 - 风险与回退
- 方差估计逼近边界:使用轮廓似然或正则先验;必要时退化为完全汇聚或不汇聚基线并告警。
- 极端群组:触发 C30-1214,限制 w_g,扩大区间,并计划额外采样或合并群组。
- 漂移:监测 w_g 分布与组级残差漂移(见第7章),超阈触发再估计与策略卡。
小结
本章确立分层/混合效应的一致口径,给出 S312-* 的核心估计式与 M30-12 的闭环流程,通过 C30-121x 契约确保方差正定、收缩合理与覆盖度达标,并与时基对齐、到达时两口径与漂移监测协同,产出可审计的组级估计、预测与清单。版权与许可(CC BY 4.0)
版权声明:除另有说明外,《能量丝理论》(含文本、图表、插图、符号与公式)的著作权由作者(“屠广林”先生)享有。
许可方式:本作品采用 Creative Commons 署名 4.0 国际许可协议(CC BY 4.0)进行许可;在注明作者与来源的前提下,允许为商业或非商业目的进行复制、转载、节选、改编与再分发。
署名格式(建议):作者:“屠广林”;作品:《能量丝理论》;来源:energyfilament.org;许可证:CC BY 4.0。
首次发布: 2025-11-11|当前版本:v5.1
协议链接:https://creativecommons.org/licenses/by/4.0/