目录 / 文档-技术白皮书 / 18-EFT.WP.Methods.CrossStats v1.0
一句话目标:定义跨模态统计的一致口径、输入输出与边界,给出最小公设与方程及端到端统计闭环 M30-1 的可执行骨架。
I. 范围与对象
- 范围
- 适用批量数据与事件流的统计描述、估计与检验、序贯与多重比较控制、漂移监测、因果推断与在线实验。
- 在 tau_mono 上计算统计量,在 ts 上发布,附 offset/skew/J 与到达时两口径差 delta_form。
- 输入
数据集 D = { (x_i, y_i, t_i, w_i, m_i) },其中 w_i 为抽样或逆概率权重,m_i ∈ {0,1} 为缺失掩码;参考分布或历史基线 D_ref;契约与阈值策略 policy。 - 输出
估计与不确定度 {est, SE, CI 或 posterior quantiles};错误控制后的决策与日志;漂移度量 {KL, W1, psi} 与处置建议;因果估计 {ATE, ATT, CATE(x)};manifest.stats.*。 - 边界条件
量纲一致 check_dim(expr) 通过;时间单调 non_decreasing(tau_mono);两口径与 delta_form 记录完整;键与追溯满足 TraceID 与 signature。
II. 名词与变量
- 随机变量与参数
X(协变量)、Y(响应)、T ∈ {0,1}(处理/暴露)、theta(参数)、hat{theta}(估计)、SE、CI、U = k * u_c。 - 权重与抽样
纳入概率 pi(i),权重 w(i) = 1 / pi(i),归一因子 W_norm = ( ∑_i w_i ) / N。 - 时间与到达时
tau_mono, ts, offset/skew/J, T_arr 两口径:
T_arr = ( 1 / c_ref ) * ( ∫ n_eff d ell ) 与 T_arr = ( ∫ ( n_eff / c_ref ) d ell );差异 delta_form。 - 单位与量纲
unit(x), dim(x);在跨模态聚合时强制 repair_units(见 Cleaning 卷第4章)。
III. 公设 P301-*
- P301-1(时基与单调):统计窗口在 tau_mono 上评估,发布以 ts 表达;任一用于累计或序贯的时间列须满足 non_decreasing(tau_mono)。
- P301-2(抽样口径显式):凡使用加权估计,必须声明 pi(i) 的来源与层级结构,并记录权重生成策略与版本。
- P301-3(量纲守恒):进入统计运算的物理量字段必须通过 check_dim( y - f(x) )。
- P301-4(到达时两口径并行):凡涉及到达时度量或窗口化与传播延迟者,强制计算并记录 delta_form。
- P301-5(可追溯与可复现):统计产出须写入 manifest.stats.*,包含 TraceID, hash_sha256(blob), signature 与运行环境摘要。
IV. 最小方程 S301-*
- S301-1(加权均值):
hat{mu}_w = ( ∑_i w_i y_i ) / ( ∑_i w_i )。 - S301-2(加权方差与 SE):
hat{sigma}^2_w = ( ∑_i w_i ( y_i - hat{mu}_w )^2 ) / ( ∑_i w_i );
SE( hat{mu}_w ) = sqrt( hat{sigma}^2_w / n_eff ),其中 n_eff = ( ∑_i w_i )^2 / ( ∑_i w_i^2 )。 - S301-3(比率与差异的 Delta 方法):若 theta = g( hat{mu}_1, hat{mu}_2 ),则 Var(theta) ≈ ( ∇g )^T Cov( hat{mu} ) ( ∇g )。
- S301-4(窗口化估计):
hat{mu}_w( t; Delta_t ) = ( ∑_{i: |tau_i - t| ≤ Delta_t/2} w_i y_i ) / ( ∑_{i: |tau_i - t| ≤ Delta_t/2} w_i )。 - S301-5(到达时差异度量):
delta_form = | ( 1 / c_ref ) * ( ∫ n_eff d ell ) - ( ∫ ( n_eff / c_ref ) d ell ) |。
V. 统计流程 M30-1(总闭环)
- 就绪条件
- 输入 D 完成模式绑定与单位修复(见《Methods.Cleaning v1.0》第3/4章),时间轴对齐(见第5章),缺失治理与掩码 m_i 完整(见第7章)。
- 指定统计窗口 Delta_t、抽样设计与权重策略、契约与阈值 policy。
- 操作
- 生成或导入 w_i 并归一;计算核心统计量与不确定度;必要时执行多重比较或序贯控制。
- 到达时相关任务并行计算两口径与 delta_form。
- 校核
量纲校核、时基与窗口一致性、权重归一与极值、覆盖度/功效与漂移阈值。 - 落盘
输出估计、区间/后验、决策与告警;生成 manifest.stats.* 并签名冻结。
VI. 契约与断言(示例 C30-1x)
- C30-11(权重归一):| ( ∑_i w_i ) / N - 1 | ≤ tol_w_norm;max(w_i)/median(w_i) ≤ cap_w_max。
- C30-12(时间一致):non_decreasing(tau_mono);窗口覆盖度 cov_rate ≥ tol_cov。
- C30-13(量纲一致):assert check_dim( y - f(x) ) = true。
- C30-14(到达时差):delta_form ≤ tol_Tarr。
- C30-15(覆盖度/功效):区间覆盖率或序贯 alpha_spent ≤ alpha_budget。
VII. 实现绑定 I30-*(本章锚点)
- I30-11 compute_weights(ds, scheme) -> w:支持 SRS/STRAT/CLUSTER/IPW,输出权重与元数据。
- I30-12 time_align_for_stats(ds, sync_ref) -> ds':在 tau_mono 上对齐,记录 offset/skew/J 与 T_arr 两口径。
- I30-13 basic_estimators(ds, fields, window) -> stats:hat{mu}_w, SE, CI 与窗口化估计。
- I30-14 emit_stats_manifest(results, policy) -> manifest.stats:写入契约结果、阈值与签名。
不变量:sum(w_i)/N ≈ 1;n_eff > 0;non_decreasing(tau_mono);delta_form ≤ tol_Tarr。
VIII. 交叉引用
- 模式与字段:见《Methods.Cleaning v1.0》第3章。
- 单位与量纲:见《Methods.Cleaning v1.0》第4章。
- 时间轴与同步:见《Methods.Cleaning v1.0》第5章。
- 异常与漂移:见《Methods.Cleaning v1.0》第8章;成像指标质量:见《Methods.Imaging v1.0》第14章。
- 核心键与追溯:见《EFT.WP.Core.DataSpec v1.0》;到达时与采集:见《EFT.WP.Core.Sea v1.0》。
IX. 质量度量与风控
- 统计服务 SLI/SLO
覆盖度偏差 |cov - target_cov|;假警率与最小可检效应;延迟 latency_ms_p99;漂移告警命中率与回退成功率。 - 漂移与基线更新
W1/KL/psi 的阈值与冷却期策略;基线更新的审计与灰度。 - 回退与审计
契约失败触发回退到上一个签名快照;全链路留痕 TraceID。
小结
本章给出 CrossStats 的对象、符号、最小公设与方程,并定义端到端闭环 M30-1 与契约基线。后续章节在此基础上,展开采样设计、估计与区间、错误控制、漂移与因果、实验与审计的实现与发布规范。版权与许可(CC BY 4.0)
版权声明:除另有说明外,《能量丝理论》(含文本、图表、插图、符号与公式)的著作权由作者(“屠广林”先生)享有。
许可方式:本作品采用 Creative Commons 署名 4.0 国际许可协议(CC BY 4.0)进行许可;在注明作者与来源的前提下,允许为商业或非商业目的进行复制、转载、节选、改编与再分发。
署名格式(建议):作者:“屠广林”;作品:《能量丝理论》;来源:energyfilament.org;许可证:CC BY 4.0。
首次发布: 2025-11-11|当前版本:v5.1
协议链接:https://creativecommons.org/licenses/by/4.0/