目录 / 文档-技术白皮书 / 18-EFT.WP.Methods.CrossStats v1.0
第3章 采样设计与抽样权重(SRS/STRAT/CLUSTER)
一句话目标:建立 SRS、分层与整群(含 PPS)抽样的统一权重口径、方差评估与校准流程,提供从设计到发布的可执行规范。
I. 范围与对象
- 范围
- 适用于有限总体与流式总体的概率抽样、加权估计、设计方差与权重校准。
- 支持多阶段设计(PSU/SSU)、后分层与迭代配额(raking/IPF),兼容事件流(Poisson/Bernoulli/reservoir)与时间窗口 Delta_t。
- 对象
- 总体大小 N(可未知)、样本量 n、层 h ∈ {1..H}、群(簇)c ∈ {1..C}、纳入概率 pi(i)、抽样权重 w_i = 1 / pi(i)、归一因子 W_norm = ( ∑ w_i ) / N_hat。
- 设计矩阵(控制总量)X_cal,约束向量 t_cal(如边际总量)。
- 时间语义:在 tau_mono 上进行窗口化与在线抽样,对外 ts 发布;涉及到达时的统计需并行记录两口径 T_arr 与 delta_form。
II. 名词与变量
- 估计量
- Horvitz–Thompson:hat{T}_HT = ∑_i ( y_i / pi(i) );Hájek 比率:hat{Y}_Hajek = ( ∑ w_i y_i ) / ( ∑ w_i )。
- 分层均值:hat{Y} = ∑_h ( N_h / N ) * hat{Y}_h,其中 hat{Y}_h = ( ∑_{i ∈ h} w_i y_i ) / ( ∑_{i ∈ h} w_i )。
- 方差与设计效应
- 设计效应:DEFF = Var_complex( hat{Y} ) / Var_SRS( hat{Y} );权重引起的 DEFF_w ≈ 1 + CV(w)^2。
- 群内相关:rho_icc;簇效应:DEFF_c ≈ 1 + ( m_bar - 1 ) * rho_icc。
- 权重校准
校准后权重 w_i* 满足 ∑ w_i* x_i = t_cal;raking 为多维边际上的乘法更新。 - 复制权重
R ∈ {1..R_rep} 复制方案(JK, BRR, Bootstrap),复制权重 w_i^(r)。 - 单位与量纲
unit(w_i) = 1, dim(w_i) = [];估计量单位继承自 y;发布前执行 check_dim.
III. 公设 P303-*
- P303-1(概率抽样显式):任何发布统计若采用样本,必须提供 pi(i) 或等价权重生成口径与版本。
- P303-2(权重归一与极值控制):默认归一到 W_norm ≈ 1;设定 cap_w_max 与修剪策略,记录被修剪集合。
- P303-3(层与簇的可交换性):层内样本可交换;簇内相关以 rho_icc 或复制法处理。
- P303-4(控制总量一致):使用校准权重时,必须给出控制总量 t_cal 的来源与时间戳。
- P303-5(时基与流式一致):在线抽样在 tau_mono 上执行,窗口 Delta_t 显式;对 T_arr 相关统计并行两口径与 delta_form 约束。
- P303-6(复制权重可审计):复制方案、随机种子与副本数 R_rep 可追溯。
- P303-7(量纲守恒):任何比率估计需声明分母为正与单位匹配;失败映射为契约违规。
IV. 最小方程 S303-*
- S303-1(SRSWOR 纳入概率):pi(i) = n / N,w_i = N / n。
- S303-2(分层抽样):pi_h(i) = n_h / N_h,w_i = N_h / n_h;Neyman 最优分配
n_h* = n * ( N_h * S_h ) / ( ∑_k N_k * S_k ),其中 S_h 为层内标准差。 - S303-3(两阶段整群 PPS):
第一阶段选择簇 c,pi_c ∝ M_c(规模度量);第二阶段在簇内 SRSWOR,pi(i | c) = n_c / M_c;总体纳入概率 pi(i) = pi_c * pi(i | c);权重 w_i = 1 / pi(i)。 - S303-4(HT 与 Hájek 方差近似):
Var( hat{T}_HT ) ≈ ∑_i ∑_j ( ( pi_ij - pi_i pi_j ) / ( pi_ij ) ) * ( y_i / pi_i ) * ( y_j / pi_j )(需要二阶纳入概率);
比率(Hájek)线性化:Var( hat{Y}_Hajek ) ≈ Var( ( ∑ w_i ( y_i - hat{Y}_Hajek ) ) / ( ∑ w_i ) )。 - S303-5(复制权重方差):
Var_rep( hat{theta} ) = c_rep * ( 1 / R_rep ) * ∑_{r=1}^{R_rep} ( hat{theta}^{(r)} - hat{theta} )^2,c_rep 为方案系数(JK/BRR/Bootstrap)。 - S303-6(权重校准-二次规划表述):
目标 min ∑ g( w_i*, w_i ),约束 X_cal^T w* = t_cal;常用 g 为二次距离 ( w_i* - w_i )^2 / ( w_i * q_i );解满足
w* = w ⊙ h( X_cal, t_cal )(⊙ 为按元素乘),h 由拉格朗日子问题确定。 - S303-7(raking 迭代比例拟合):
初始化 w(0) = w;沿各边际 m 更新 w(k+1) = w(k) * ( t_m / ( ∑_{i∈m} w(k) ) ),直到 || X_cal^T w - t_cal || ≤ tol_rake。 - S303-8(流式 Poisson/Bernoulli 抽样):
对事件 e,以 p_e 独立纳入,pi(e) = p_e,w_e = 1 / p_e;滑窗均值
hat{mu}_w( t; Delta_t ) = ( ∑_{e: |tau_e - t| ≤ Delta_t/2} w_e y_e ) / ( ∑_{e: |tau_e - t| ≤ Delta_t/2} w_e )。 - S303-9(reservoir 抽样大小 K):
保持等概率样本,pi(i) = K / n_seen;权重 w_i = n_seen / K,需记录 n_seen(t) 序列以便发布。 - S303-10(有限总体校正 FPC):
FPC = sqrt( ( N - n ) / ( N - 1 ) );SRS 均值方差近似 Var( hat{Y} ) ≈ ( S^2 / n ) * ( 1 - n / N )。
V. 统计流程 M30-3(设计→抽样→权重→方差→校准→发布)
- 就绪
明确总体框与分层/整群结构;设定样本量与功效目标;加载控制总量 t_cal 与时间窗口 Delta_t;执行 check_dim。 - 抽样
生成纳入概率 pi(i);事件流按 p_e 或 reservoir 进行;记录随机种子与版本。 - 权重
计算初始权重 w_i = 1 / pi(i);归一 W_norm ≈ 1;应用极值限制或平滑;产出权重日志。 - 方差
选择线性化或复制权重方案;若多阶段,估计 rho_icc 并报告 DEFF_c;合成总方差。 - 校准
执行 raking 或二次规划校准至 t_cal;校准后重检极值与 W_norm;记录收敛指标。 - 发布
计算目标估计与区间;并行记录 T_arr 两口径与 delta_form(如涉及时延);落盘 manifest.stats.sampling.* 与签名冻结。
VI. 契约与断言(示例 C30-31x)
- C30-311(归一口径):| W_norm - 1 | ≤ tol_w_norm。
- C30-312(权重极值):max(w_i) / median(w_i) ≤ cap_w_max,CV(w) ≤ cap_cv_w。
- C30-313(校准收敛):|| X_cal^T w* - t_cal ||_1 ≤ tol_cal,iters_rake ≤ cap_iters。
- C30-314(复制充分性):R_rep ≥ R_min,复制方差相对线性化差异 ≤ tol_var_gap。
- C30-315(簇相关报告):如使用簇抽样,需给出 rho_icc 的区间与 DEFF_c;若缺失则标注未知并降级发布。
- C30-316(到达时差):如统计依赖 T_arr,断言 delta_form ≤ tol_Tarr。
- C30-317(流式覆盖度):窗口覆盖率 cov_rate(Delta_t) ≥ tol_cover,漏采估计 ≤ tol_miss_rate。
VII. 实现绑定 I30-*
- I30-31 compute_weights(ds, scheme) -> w
- scheme ∈ {SRSWOR, STRAT, CLUSTER_PPS, POISSON, BERNOULLI, RESERVOIR};输出 w, W_norm, 日志与极值报告。
- 不变量:sum(w)/N_hat ≈ 1,seed/version 落盘。
- I30-32 estimate_variance(ds, method) -> var_report
method ∈ {LINEARIZATION, JK, BRR, BOOT};输出 SE, DEFF, rho_icc(如适用)。 - I30-33 calibrate_weights(w, X_cal, t_cal, method) -> w*
method ∈ {RAKING, QP_CAL};输出收敛曲线与残差。 - I30-34 stream_sampler(stream, policy) -> sample, w
policy ∈ {POISSON(p), RESERVOIR(K), WINDOW(Delta_t)};输出样本与时间元数据。 - I30-35 emit_sampling_manifest(design, weights, variance) -> manifest.stats.sampling
写入 TraceID、设计摘要、参数、契约评估与签名。
VIII. 交叉引用
- 模式与字段注册:见《Methods.Cleaning v1.0》第3章。
- 单位、量纲与校核:见《Methods.Cleaning v1.0》第4章。
- 时间轴与窗口化、到达时两口径:见《Methods.Cleaning v1.0》第5–6章。
- 重采样与交叉验证:见本卷第5章;错误控制与序贯:见本卷第6章。
IX. 质量度量与风控
- SLI/SLO
权重稳定度 CV(w), cap_w_max 违规率;方差方法一致性 var_gap;DEFF 趋势;窗口覆盖度与漏采率;latency_ms_p99(计算延迟)。 - 风控与回退
触发条件:C30-312/313/316 失败;动作:回退至未校准权重或上一签名清单,降低发布等级并告警。
小结
本章提供从设计到发布的抽样与权重治理闭环:P303-* 约束概率口径与时基一致,S303-* 覆盖纳入概率、方差与校准基式,M30-3 规范流程,I30-* 给出接口绑定;为后续覆盖度评估、A/B 与因果推断提供可复用的抽样基座。版权与许可(CC BY 4.0)
版权声明:除另有说明外,《能量丝理论》(含文本、图表、插图、符号与公式)的著作权由作者(“屠广林”先生)享有。
许可方式:本作品采用 Creative Commons 署名 4.0 国际许可协议(CC BY 4.0)进行许可;在注明作者与来源的前提下,允许为商业或非商业目的进行复制、转载、节选、改编与再分发。
署名格式(建议):作者:“屠广林”;作品:《能量丝理论》;来源:energyfilament.org;许可证:CC BY 4.0。
首次发布: 2025-11-11|当前版本:v5.1
协议链接:https://creativecommons.org/licenses/by/4.0/