目录文档-技术白皮书18-EFT.WP.Methods.CrossStats v1.0

第3章 采样设计与抽样权重(SRS/STRAT/CLUSTER)


一句话目标:建立 SRS、分层与整群(含 PPS)抽样的统一权重口径、方差评估与校准流程,提供从设计到发布的可执行规范。


I. 范围与对象

  1. 范围
    • 适用于有限总体与流式总体的概率抽样、加权估计、设计方差与权重校准。
    • 支持多阶段设计(PSU/SSU)、后分层与迭代配额(raking/IPF),兼容事件流(Poisson/Bernoulli/reservoir)与时间窗口 Delta_t。
  2. 对象
    • 总体大小 N(可未知)、样本量 n、层 h ∈ {1..H}、群(簇)c ∈ {1..C}、纳入概率 pi(i)、抽样权重 w_i = 1 / pi(i)、归一因子 W_norm = ( ∑ w_i ) / N_hat。
    • 设计矩阵(控制总量)X_cal,约束向量 t_cal(如边际总量)。
    • 时间语义:在 tau_mono 上进行窗口化与在线抽样,对外 ts 发布;涉及到达时的统计需并行记录两口径 T_arr 与 delta_form。

II. 名词与变量

  1. 估计量
    • Horvitz–Thompson:hat{T}_HT = ∑_i ( y_i / pi(i) );Hájek 比率:hat{Y}_Hajek = ( ∑ w_i y_i ) / ( ∑ w_i )。
    • 分层均值:hat{Y} = ∑_h ( N_h / N ) * hat{Y}_h,其中 hat{Y}_h = ( ∑_{i ∈ h} w_i y_i ) / ( ∑_{i ∈ h} w_i )。
  2. 方差与设计效应
    • 设计效应:DEFF = Var_complex( hat{Y} ) / Var_SRS( hat{Y} );权重引起的 DEFF_w ≈ 1 + CV(w)^2。
    • 群内相关:rho_icc;簇效应:DEFF_c ≈ 1 + ( m_bar - 1 ) * rho_icc。
  3. 权重校准
    校准后权重 w_i* 满足 ∑ w_i* x_i = t_cal;raking 为多维边际上的乘法更新。
  4. 复制权重
    R ∈ {1..R_rep} 复制方案(JK, BRR, Bootstrap),复制权重 w_i^(r)。
  5. 单位与量纲
    unit(w_i) = 1, dim(w_i) = [];估计量单位继承自 y;发布前执行 check_dim.

III. 公设 P303-*


IV. 最小方程 S303-*


V. 统计流程 M30-3(设计→抽样→权重→方差→校准→发布)


VI. 契约与断言(示例 C30-31x)


VII. 实现绑定 I30-*

  1. I30-31 compute_weights(ds, scheme) -> w
    • scheme ∈ {SRSWOR, STRAT, CLUSTER_PPS, POISSON, BERNOULLI, RESERVOIR};输出 w, W_norm, 日志与极值报告。
    • 不变量:sum(w)/N_hat ≈ 1,seed/version 落盘。
  2. I30-32 estimate_variance(ds, method) -> var_report
    method ∈ {LINEARIZATION, JK, BRR, BOOT};输出 SE, DEFF, rho_icc(如适用)。
  3. I30-33 calibrate_weights(w, X_cal, t_cal, method) -> w*
    method ∈ {RAKING, QP_CAL};输出收敛曲线与残差。
  4. I30-34 stream_sampler(stream, policy) -> sample, w
    policy ∈ {POISSON(p), RESERVOIR(K), WINDOW(Delta_t)};输出样本与时间元数据。
  5. I30-35 emit_sampling_manifest(design, weights, variance) -> manifest.stats.sampling
    写入 TraceID、设计摘要、参数、契约评估与签名。

VIII. 交叉引用


IX. 质量度量与风控


小结

本章提供从设计到发布的抽样与权重治理闭环:P303-* 约束概率口径与时基一致,S303-* 覆盖纳入概率、方差与校准基式,M30-3 规范流程,I30-* 给出接口绑定;为后续覆盖度评估、A/B 与因果推断提供可复用的抽样基座。

版权与许可(CC BY 4.0)

版权声明:除另有说明外,《能量丝理论》(含文本、图表、插图、符号与公式)的著作权由作者(“屠广林”先生)享有。
许可方式:本作品采用 Creative Commons 署名 4.0 国际许可协议(CC BY 4.0)进行许可;在注明作者与来源的前提下,允许为商业或非商业目的进行复制、转载、节选、改编与再分发。
署名格式(建议):作者:“屠广林”;作品:《能量丝理论》;来源:energyfilament.org;许可证:CC BY 4.0。

首次发布: 2025-11-11|当前版本:v5.1
协议链接:https://creativecommons.org/licenses/by/4.0/