目录文档-技术白皮书18-EFT.WP.Methods.CrossStats v1.0

第8章 A/B 与多臂试验(功效、停序、偏差修正)


一句话目标:建立从样本量与功效规划到序贯停序与偏差修正的统一口径,使 A/B 与多臂试验在流式与离线环境中可审计、可回退、可复现。


I. 范围与对象

  1. 范围
    适用于二臂 A/B、K 臂对照、多指标监测与在线序贯决策(固定/自适应分流)。覆盖均值、比率、比值与分位数等主指标及其守护指标(guardrails)。
  2. 对象
    • 输入:plan, alpha, beta, power, MDE=delta, 臂数 K, 分流向量 p = (p_1..p_K), 观察窗口 Delta_t(在 tau_mono 上),到达时信息 T_arr(若指标依赖时延),alpha_spending 与 looks。
    • 输出:decision ∈ {continue, stop_win(k), stop_futility}, stop_time, 估计与区间 {hat{tau}, CI}, 合同与审计 manifest.stats.ab.*。
    • 约束:按预注册分析计划执行;多次查看采用 alpha_spending,不超预算;任何与 T_arr 相关的度量并行记录两口径与 delta_form。

II. 名词与变量


III. 公设 P308-*


IV. 最小方程 S308-*

  1. S308-1(样本量:两独立均值,等分流)
    • n_per_arm = ( ( z_{1 - alpha/2} + z_{1 - beta} )^2 * 2 * sigma^2 ) / delta^2。
    • 不等分流 r = n_1 / n_0:n_0 = ( ( z_{1 - alpha/2} + z_{1 - beta} )^2 * sigma^2 * (1 + r) ) / ( r * delta^2 ),n_1 = r * n_0。
  2. S308-2(效应估计与方差)
    • 均值差:hat{tau} = bar{Y}_1 - bar{Y}_0,Var(hat{tau}) = sigma_1^2 / n_1 + sigma_0^2 / n_0。
    • 比率型(Delta 法):若 R = A/B,Var(R) ≈ ( 1 / E[B]^2 ) Var(A) + ( E[A]^2 / E[B]^4 ) Var(B) - ( 2 E[A] / E[B]^3 ) Cov(A,B )。
  3. S308-3(CUPED/ANCOVA 降方差)
    • Y' = Y - theta * ( X0 - E[X0] ),theta = Cov(Y, X0) / Var(X0);Var(Y') = (1 - R^2) * Var(Y),其中 R^2 = Corr(Y, X0)^2。
    • hat{tau}_ANCOVA 由 Y ~ T + X 线性模型的 coef(T) 给出。
  4. S308-4(IPW 修正)
    w_i = 1 / ps_i,hat{tau}_{IPW} = ( ∑ w_i T_i Y_i / ∑ w_i T_i ) - ( ∑ w_i (1 - T_i) Y_i / ∑ w_i (1 - T_i) )。
  5. S308-5(序贯组间 Z 统计量与边界)
    • 第 t 次查看:Z_t = ( hat{tau}_t ) / SE_t,停序规则:若 |Z_t| ≥ g_t 则 stop_win;若 |Z_t| ≤ f_t 则 stop_futility。
    • g_t 由 alpha_spending(如 O'Brien–Fleming 或 Pocock)生成;∑ alpha_t ≤ alpha。
  6. S308-6(多臂探索–利用)
    • UCB1:UCB_k(t) = hat{mu}_k(t) + sqrt( ( 2 * log t ) / n_k(t) ),选择 argmax_k UCB_k(t)。
    • Thompson Sampling:对每臂 mu_k 抽样 tilde{mu}_k ~ p(mu_k|D_t),选择 argmax_k tilde{mu}_k。
    • 最优臂识别的顺序检验可用 Holm–Bonferroni 与序贯 alpha_spending 结合。
  7. S308-7(到达时两口径差)
    若主指标依赖到达时:delta_form = | ( 1 / c_ref ) * ( ∫ n_eff d ell ) - ( ∫ ( n_eff / c_ref ) d ell ) |。

V. 统计流程 M30-8(规划→随机→监测→停序→落盘)


VI. 契约与断言(C30-81x)


VII. 实现绑定 I30-*

不变量:∑ alpha_t ≤ alpha;sum(w)/N ≈ 1;D_after ≤ D_before(若应用偏差修正);manifest 含 TraceID、查看点、边界与签名。


VIII. 交叉引用


IX. 质量与风控


小结

本章给出试验从样本量与功效规划、序贯停序到 CUPED/ANCOVA/IPW 等偏差修正的统一实现与契约。结合第6章的错误控制与第7章的漂移治理,A/B 与多臂试验可在 tau_mono 上稳定运行,并将全流程证据落盘到 manifest.stats.ab.* 以支持审计与回退。

版权与许可(CC BY 4.0)

版权声明:除另有说明外,《能量丝理论》(含文本、图表、插图、符号与公式)的著作权由作者(“屠广林”先生)享有。
许可方式:本作品采用 Creative Commons 署名 4.0 国际许可协议(CC BY 4.0)进行许可;在注明作者与来源的前提下,允许为商业或非商业目的进行复制、转载、节选、改编与再分发。
署名格式(建议):作者:“屠广林”;作品:《能量丝理论》;来源:energyfilament.org;许可证:CC BY 4.0。

首次发布: 2025-11-11|当前版本:v5.1
协议链接:https://creativecommons.org/licenses/by/4.0/