目录 / 文档-技术白皮书 / 18-EFT.WP.Methods.CrossStats v1.0
一句话目标:建立从样本量与功效规划到序贯停序与偏差修正的统一口径,使 A/B 与多臂试验在流式与离线环境中可审计、可回退、可复现。
I. 范围与对象
- 范围
适用于二臂 A/B、K 臂对照、多指标监测与在线序贯决策(固定/自适应分流)。覆盖均值、比率、比值与分位数等主指标及其守护指标(guardrails)。 - 对象
- 输入:plan, alpha, beta, power, MDE=delta, 臂数 K, 分流向量 p = (p_1..p_K), 观察窗口 Delta_t(在 tau_mono 上),到达时信息 T_arr(若指标依赖时延),alpha_spending 与 looks。
- 输出:decision ∈ {continue, stop_win(k), stop_futility}, stop_time, 估计与区间 {hat{tau}, CI}, 合同与审计 manifest.stats.ab.*。
- 约束:按预注册分析计划执行;多次查看采用 alpha_spending,不超预算;任何与 T_arr 相关的度量并行记录两口径与 delta_form。
II. 名词与变量
- 处理与样本:k ∈ {0..K-1}, 分配指示 Z ∈ {0..K-1}, 处理指示 T ∈ {0,1}(二臂时),每臂样本量 n_k。
- 指标:观测 Y, 协变量 X, 先验指标或基线 X0。比率型指标写作 R = ( ∑ y_i ) / ( ∑ d_i )。
- 误差与功效:alpha, beta, power = 1 - beta, 最小可检效应 delta,总体方差 sigma^2。
- 序贯元素:第 t 次查看统计量 Z_t,边界 g_t,预算 alpha_t,停序时间 tau_stop。
- 偏差修正:CUPED 系数 theta, 密度比权重 w_i = 1 / ps_i,倾向 ps(x) = P(T=1|X=x)。
- 多臂策略:UCB_k(t), TS 后验 p(mu_k|D_t),交通约束 p_k(t)。
III. 公设 P308-*
- P308-1(随机化与可交换性):分配 Z 随机且可追溯,任何分析以分配为准而非观察到的曝光时长。
- P308-2(主指标唯一):每次试验仅有一个主指标用于停序与样本量设计,其余为守护指标与探索指标。
- P308-3(序贯预算一致):所有查看均占用统一 alpha_spending 预算,累计不超过 alpha。
- P308-4(时间与到达时):统计窗口在 tau_mono 上评估,对外以 ts 发布;若指标依赖时延,记录 T_arr 两口径与 delta_form。
- P308-5(偏差修正前置):CUPED/ANCOVA 等只使用试验前或处理前可得的变量;IPW 不得使用结果变量泄漏。
- P308-6(多臂安全):自适应策略须尊重最小流量约束与冷启动探索,避免早期饥饿。
- P308-7(集群/干扰声明):存在集群随机化或干扰时,使用集群稳健方差与对应样本量口径。
IV. 最小方程 S308-*
- S308-1(样本量:两独立均值,等分流)
- n_per_arm = ( ( z_{1 - alpha/2} + z_{1 - beta} )^2 * 2 * sigma^2 ) / delta^2。
- 不等分流 r = n_1 / n_0:n_0 = ( ( z_{1 - alpha/2} + z_{1 - beta} )^2 * sigma^2 * (1 + r) ) / ( r * delta^2 ),n_1 = r * n_0。
- S308-2(效应估计与方差)
- 均值差:hat{tau} = bar{Y}_1 - bar{Y}_0,Var(hat{tau}) = sigma_1^2 / n_1 + sigma_0^2 / n_0。
- 比率型(Delta 法):若 R = A/B,Var(R) ≈ ( 1 / E[B]^2 ) Var(A) + ( E[A]^2 / E[B]^4 ) Var(B) - ( 2 E[A] / E[B]^3 ) Cov(A,B )。
- S308-3(CUPED/ANCOVA 降方差)
- Y' = Y - theta * ( X0 - E[X0] ),theta = Cov(Y, X0) / Var(X0);Var(Y') = (1 - R^2) * Var(Y),其中 R^2 = Corr(Y, X0)^2。
- hat{tau}_ANCOVA 由 Y ~ T + X 线性模型的 coef(T) 给出。
- S308-4(IPW 修正)
w_i = 1 / ps_i,hat{tau}_{IPW} = ( ∑ w_i T_i Y_i / ∑ w_i T_i ) - ( ∑ w_i (1 - T_i) Y_i / ∑ w_i (1 - T_i) )。 - S308-5(序贯组间 Z 统计量与边界)
- 第 t 次查看:Z_t = ( hat{tau}_t ) / SE_t,停序规则:若 |Z_t| ≥ g_t 则 stop_win;若 |Z_t| ≤ f_t 则 stop_futility。
- g_t 由 alpha_spending(如 O'Brien–Fleming 或 Pocock)生成;∑ alpha_t ≤ alpha。
- S308-6(多臂探索–利用)
- UCB1:UCB_k(t) = hat{mu}_k(t) + sqrt( ( 2 * log t ) / n_k(t) ),选择 argmax_k UCB_k(t)。
- Thompson Sampling:对每臂 mu_k 抽样 tilde{mu}_k ~ p(mu_k|D_t),选择 argmax_k tilde{mu}_k。
- 最优臂识别的顺序检验可用 Holm–Bonferroni 与序贯 alpha_spending 结合。
- S308-7(到达时两口径差)
若主指标依赖到达时:delta_form = | ( 1 / c_ref ) * ( ∫ n_eff d ell ) - ( ∫ ( n_eff / c_ref ) d ell ) |。
V. 统计流程 M30-8(规划→随机→监测→停序→落盘)
- 规划与预注册
确定主指标/守护指标、alpha/beta/delta、K、p_k、是否序贯、looks 与 alpha_spending;计算样本量与最小观察时长;声明集群与干扰假设。 - 随机化与日志
实施分层或集群随机化;记录 TraceID, Z, ts, tau_mono, T_arr;执行 SRM(样本比率失衡)与事件重放校验。 - 在线监测
在固定查看点计算 Z_t 与守护指标;若使用 CUPED/ANCOVA,锁定 X0/X;比率型采用 Delta 法或自助法估计 SE_t。 - 偏差修正
对轻微失衡应用 CUPED/ANCOVA;对暴露偏差或选择偏差学习 ps(x) 并计算 w_i,控制 var(w) 与 max(w)。 - 序贯决策
若 |Z_t| ≥ g_t 且守护指标未违规,stop_win(k);若触发 Futility 边界或资源耗尽,stop_futility;否则 continue。 - 收尾与发布
生成 {hat{tau}, CI, p, power_posthoc}、异质性 CATE(x) 摘要、contract_report;落盘 manifest.stats.ab.* 并签名。
VI. 契约与断言(C30-81x)
- C30-811(SRM):| ( n_k / n ) - p_k | ≤ tol_srm 对所有 k;平衡性检验 p_balance ≥ alpha_balance。
- C30-812(预算):∑ alpha_t ≤ alpha;查看点与 alpha_spending 一致。
- C30-813(功效就绪):在未达到 n_min 前不得因优效提前停序。
- C30-814(守护指标):若任一守护指标越界则禁止宣告胜出,标记 guardrail_violation=true。
- C30-815(CUPED 合法性):X0 为处理前变量;theta 来自预先冻结的估计。
- C30-816(IPW 稳定性):var(w) ≤ tol_wvar 且 max(w) ≤ w_max,并有 W_norm = ( ∑ w_i ) / N ≈ 1。
- C30-817(到达时差):若指标依赖 T_arr,断言 delta_form ≤ tol_Tarr。
- C30-818(多臂安全):n_k(t) ≥ n_min_arm 与 p_k(t) ≥ p_min,防止饥饿。
- C30-819(集群稳健):集群设计时报表使用集群稳健方差,clusters ≥ c_min。
VII. 实现绑定 I30-*
- I30-80 compute_sample_size(metric, sigma, alpha, beta, delta, alloc) -> n_plan
- I30-81 run_ab_test(stream, metric, alpha_spending, boundary, cuped=None, reweight=None, guardrails=[]) -> decision
- I30-82 sequential_boundary(spending, looks) -> {g_t, f_t}
- I30-83 cuped(y, x0) -> {y_prime, theta}
- I30-84 ancova_adjust(ds, formula) -> {est, SE}
- I30-85 ipw_reweight(ds, ps_model) -> {w, diag}
- I30-86 multi_armed_policy(policy, K, params) -> {action, p_k}(policy ∈ {UCB1, Thompson, epsilon_greedy})
- I30-87 enforce_ab_contracts(ds, rules) -> contract_report
- I30-88 emit_ab_manifest(results, plan) -> manifest.stats.ab
不变量:∑ alpha_t ≤ alpha;sum(w)/N ≈ 1;D_after ≤ D_before(若应用偏差修正);manifest 含 TraceID、查看点、边界与签名。
VIII. 交叉引用
- 多重比较与序贯预算:见本卷第6章(FWER/FDR/Sequential)。
- 漂移监测与对齐:见本卷第7章(W1/KL/PSI)。
- 重采样评估与区间:见本卷第5章(Bootstrap/Jackknife/K-fold)。
- 清洗的时基与到达时两口径:见《Methods.Cleaning v1.0》第5、6章。
IX. 质量与风控
- SLI/SLO(示例)
srm_alert_rate ≤ alpha_srm;decision_latency_ms_p99 ≤ SLO;sequential_false_positive ≤ alpha;power_realized ≥ target_power - tol;guardrail_breach_rate ≤ g_tol。 - 风控
触发 SRM 或守护指标违规即冻结分流;alpha_spending 异常回滚至上一次有效查看;IPW 不稳定切换至 ANCOVA;多臂策略不稳定降级为固定等分流。
小结
本章给出试验从样本量与功效规划、序贯停序到 CUPED/ANCOVA/IPW 等偏差修正的统一实现与契约。结合第6章的错误控制与第7章的漂移治理,A/B 与多臂试验可在 tau_mono 上稳定运行,并将全流程证据落盘到 manifest.stats.ab.* 以支持审计与回退。版权与许可(CC BY 4.0)
版权声明:除另有说明外,《能量丝理论》(含文本、图表、插图、符号与公式)的著作权由作者(“屠广林”先生)享有。
许可方式:本作品采用 Creative Commons 署名 4.0 国际许可协议(CC BY 4.0)进行许可;在注明作者与来源的前提下,允许为商业或非商业目的进行复制、转载、节选、改编与再分发。
署名格式(建议):作者:“屠广林”;作品:《能量丝理论》;来源:energyfilament.org;许可证:CC BY 4.0。
首次发布: 2025-11-11|当前版本:v5.1
协议链接:https://creativecommons.org/licenses/by/4.0/