18-EFT.WP.Methods.CrossStats v1.0 | 第1章 CrossStats 域定义与范围 | 能量丝理论

第1章 CrossStats 域定义与范围

一句话目标：定义跨模态统计的一致口径、输入输出与边界，给出最小公设与方程及端到端统计闭环 M30-1 的可执行骨架。

I. 范围与对象

范围
- 适用批量数据与事件流的统计描述、估计与检验、序贯与多重比较控制、漂移监测、因果推断与在线实验。
- 在 tau_mono 上计算统计量，在 ts 上发布，附 offset/skew/J 与到达时两口径差 delta_form。
输入
数据集 D = { (x_i, y_i, t_i, w_i, m_i) }，其中 w_i 为抽样或逆概率权重，m_i ∈ {0,1} 为缺失掩码；参考分布或历史基线 D_ref；契约与阈值策略 policy。
输出
估计与不确定度 {est, SE, CI 或 posterior quantiles}；错误控制后的决策与日志；漂移度量 {KL, W1, psi} 与处置建议；因果估计 {ATE, ATT, CATE(x)}；manifest.stats.*。
边界条件
量纲一致 check_dim(expr) 通过；时间单调 non_decreasing(tau_mono)；两口径与 delta_form 记录完整；键与追溯满足 TraceID 与 signature。

II. 名词与变量

随机变量与参数
X（协变量）、Y（响应）、T ∈ {0,1}（处理/暴露）、theta（参数）、hat{theta}（估计）、SE、CI、U = k * u_c。
权重与抽样
纳入概率 pi(i)，权重 w(i) = 1 / pi(i)，归一因子 W_norm = ( ∑_i w_i ) / N。
时间与到达时
tau_mono, ts, offset/skew/J, T_arr 两口径：
T_arr = ( 1 / c_ref ) * ( ∫ n_eff d ell ) 与 T_arr = ( ∫ ( n_eff / c_ref ) d ell )；差异 delta_form。
单位与量纲
unit(x), dim(x)；在跨模态聚合时强制 repair_units（见 Cleaning 卷第4章）。

III. 公设 P301-*

P301-1（时基与单调）：统计窗口在 tau_mono 上评估，发布以 ts 表达；任一用于累计或序贯的时间列须满足 non_decreasing(tau_mono)。
P301-2（抽样口径显式）：凡使用加权估计，必须声明 pi(i) 的来源与层级结构，并记录权重生成策略与版本。
P301-3（量纲守恒）：进入统计运算的物理量字段必须通过 check_dim( y - f(x) )。
P301-4（到达时两口径并行）：凡涉及到达时度量或窗口化与传播延迟者，强制计算并记录 delta_form。
P301-5（可追溯与可复现）：统计产出须写入 manifest.stats.*，包含 TraceID, hash_sha256(blob), signature 与运行环境摘要。

IV. 最小方程 S301-*

S301-1（加权均值）：
hat{mu}_w = ( ∑_i w_i y_i ) / ( ∑_i w_i )。
S301-2（加权方差与 SE）：
hat{sigma}^2_w = ( ∑_i w_i ( y_i - hat{mu}_w )^2 ) / ( ∑_i w_i )；
SE( hat{mu}_w ) = sqrt( hat{sigma}^2_w / n_eff )，其中 n_eff = ( ∑_i w_i )^2 / ( ∑_i w_i^2 )。
S301-3（比率与差异的 Delta 方法）：若 theta = g( hat{mu}_1, hat{mu}_2 )，则 Var(theta) ≈ ( ∇g )^T Cov( hat{mu} ) ( ∇g )。
S301-4（窗口化估计）：
hat{mu}_w( t; Delta_t ) = ( ∑_{i: |tau_i - t| ≤ Delta_t/2} w_i y_i ) / ( ∑_{i: |tau_i - t| ≤ Delta_t/2} w_i )。
S301-5（到达时差异度量）：
delta_form = | ( 1 / c_ref ) * ( ∫ n_eff d ell ) - ( ∫ ( n_eff / c_ref ) d ell ) |。

V. 统计流程 M30-1（总闭环）

就绪条件
- 输入 D 完成模式绑定与单位修复（见《Methods.Cleaning v1.0》第3/4章），时间轴对齐（见第5章），缺失治理与掩码 m_i 完整（见第7章）。
- 指定统计窗口 Delta_t、抽样设计与权重策略、契约与阈值 policy。
操作
- 生成或导入 w_i 并归一；计算核心统计量与不确定度；必要时执行多重比较或序贯控制。
- 到达时相关任务并行计算两口径与 delta_form。
校核
量纲校核、时基与窗口一致性、权重归一与极值、覆盖度/功效与漂移阈值。
落盘
输出估计、区间/后验、决策与告警；生成 manifest.stats.* 并签名冻结。

VI. 契约与断言（示例 C30-1x）

C30-11（权重归一）：| ( ∑_i w_i ) / N - 1 | ≤ tol_w_norm；max(w_i)/median(w_i) ≤ cap_w_max。
C30-12（时间一致）：non_decreasing(tau_mono)；窗口覆盖度 cov_rate ≥ tol_cov。
C30-13（量纲一致）：assert check_dim( y - f(x) ) = true。
C30-14（到达时差）：delta_form ≤ tol_Tarr。
C30-15（覆盖度/功效）：区间覆盖率或序贯 alpha_spent ≤ alpha_budget。

VII. 实现绑定 I30-*（本章锚点）

I30-11 compute_weights(ds, scheme) -> w：支持 SRS/STRAT/CLUSTER/IPW，输出权重与元数据。
I30-12 time_align_for_stats(ds, sync_ref) -> ds'：在 tau_mono 上对齐，记录 offset/skew/J 与 T_arr 两口径。
I30-13 basic_estimators(ds, fields, window) -> stats：hat{mu}_w, SE, CI 与窗口化估计。
I30-14 emit_stats_manifest(results, policy) -> manifest.stats：写入契约结果、阈值与签名。

不变量：sum(w_i)/N ≈ 1；n_eff > 0；non_decreasing(tau_mono)；delta_form ≤ tol_Tarr。

VIII. 交叉引用

IX. 质量度量与风控

统计服务 SLI/SLO
覆盖度偏差 |cov - target_cov|；假警率与最小可检效应；延迟 latency_ms_p99；漂移告警命中率与回退成功率。
漂移与基线更新
W1/KL/psi 的阈值与冷却期策略；基线更新的审计与灰度。
回退与审计
契约失败触发回退到上一个签名快照；全链路留痕 TraceID。

小结

本章给出 CrossStats 的对象、符号、最小公设与方程，并定义端到端闭环 M30-1 与契约基线。后续章节在此基础上，展开采样设计、估计与区间、错误控制、漂移与因果、实验与审计的实现与发布规范。