目录 / 文档-技术白皮书 / 18-EFT.WP.Methods.CrossStats v1.0
I. 目的与适用范围
- 统一跨模态统计口径,覆盖采样设计、估计与区间、序贯与多重比较、漂移监测、因果推断与在线实验全链路,使统计结果能与数据清洗、成像与核心度量卷无缝对接并可审计落盘。
- 适用于离线评估、在线 A/B、多域迁移与流式监控等场景;输入可为批量数据集或事件流,输出为统计估计、区间/后验、决策与 manifest.stats 清单。
II. 读者画像与阅读路径
- 读者角色
- 算法工程:模型评估、因果与校准迁移。
- 数据平台:抽样与权重、漂移监测、SLO 审计。
- 产品与运营:实验设计、功效管理、序贯停序。
- 推荐阅读路径
- 快速路径:第2→第6→第7→第8→第14→第15章。
- 深入路径:第3→第4→第5→第9→第10→第11→第12→第13章。
III. 术语、符号与计量基线
- 统一符号(内联一律反引号):D={ (x_i,y_i,t_i) }, N, pi(i), w(i)=1/pi(i), W_norm, hat{theta}, SE, CI, U = k * u_c, alpha, beta, power, ppc, KL, W1, psi, ATE, ATT, CATE(x), ps(x)。
- 时基与到达时
- 统计窗口在 tau_mono 评估,对外以 ts 发布,附 offset/skew/J。
- 到达时两口径并行记录:T_arr = ( 1 / c_ref ) * ( ∫ n_eff d ell ) 与 T_arr = ( ∫ ( n_eff / c_ref ) d ell ),差异度量 delta_form 入清单。
- 单位与量纲
含物理量的统计量必须声明 unit(x) 与 dim(x),发布前执行 check_dim( y - f(x) )。
IV. 方法论闭环与产出物
- 闭环步骤:设计→采样与权重→估计/区间→多重比较控制或序贯决策→漂移监测与基线更新→合规断言→manifest.stats 发布与签名。
- 核心产出
- 估计与不确定度:est, SE, CI 或后验分位;序贯/多重比较校正后的 p 或决策边界。
- 漂移与对齐:{KL, W1, psi} 与对齐映射;告警与回退建议。
- 因果与实验:ATE/ATT/CATE(x)、功效与样本量报告、停序日志。
- 清单:manifest.stats.*(窗口、权重口径、契约结果、TraceID、签名)。
V. 与配套白皮书的接口与交叉引用
- 与清洗卷的接口
- 模式与字段:见《Methods.Cleaning v1.0》第3章;量纲与单位:见第4章;时基与同步:见第5章;异常与漂移:见第8章;契约与发布冻结:见第10章。
- 本卷依赖 non_decreasing(ts|tau_mono)、check_dim(expr)、到达时两口径与 delta_form。
- 与成像卷的接口
- 成像统计口径(PSF/MTF 指标、噪声与校准迁移):见《Methods.Imaging v1.0》第5/7/9/14章及附录。
- 本卷提供跨域统计与实验框架以支撑成像指标的对比与审计。
- 与 Core 卷的接口
键与追溯:见《EFT.WP.Core.DataSpec v1.0》;采集与到达时:见《EFT.WP.Core.Sea v1.0》;执行与背压:见《EFT.WP.Core.Threads v1.0》;密度与归一化:见《EFT.WP.Core.Density v1.0》。
VI. 编号体系、契约与发布要求
- 编号口径
公设 P30x-*,最小方程 S30x-*,统计流程 M30-*,实现绑定 I30-*,契约 C30-*。 - 合规与契约
- 最小集合:覆盖度/功效/SLO、漂移阈值、权重归一、序贯 alpha 预算、delta_form 上界。
- 断言示例:sum(w_i)/N ≈ 1、alpha_spent ≤ alpha_budget、psi ≤ tol_psi、delta_form ≤ tol_Tarr。
- 发布冻结
assert_contract 全量通过后,生成 manifest.stats,计算 hash_sha256(blob) 并 signature,进入冻结区。
VII. 边界与非目标
- 非目标
不覆盖专用领域的深度模型训练细节与特定业务 KPI 定义;不替代法律合规审查。 - 边界
本卷仅给出统计口径与工程实现绑定,不强制具体技术栈与语言。
VIII. 结构与章节导览
第1章定义范围与闭环;第2章给出统计基线公设与方程;第3–6章处理抽样、估计、重采样与错误控制;第7章管理漂移与基线更新;第8章覆盖 A/B 与多臂;第9章校准迁移;第10–13章因果、时序、层级与元分析;第14章质量与审计;第15章提供端到端用例;附录汇总接口、契约、清单、指标与误差传播、变更记录。小结
本卷以统一的符号、时基与计量约束,提供跨场景可复用的统计方法与工程落盘规范。读者可据此构建可追溯、可审计、可回退的统计服务,将估计与决策稳定地接入生产发布与 SLO 治理链路。版权与许可(CC BY 4.0)
版权声明:除另有说明外,《能量丝理论》(含文本、图表、插图、符号与公式)的著作权由作者(“屠广林”先生)享有。
许可方式:本作品采用 Creative Commons 署名 4.0 国际许可协议(CC BY 4.0)进行许可;在注明作者与来源的前提下,允许为商业或非商业目的进行复制、转载、节选、改编与再分发。
署名格式(建议):作者:“屠广林”;作品:《能量丝理论》;来源:energyfilament.org;许可证:CC BY 4.0。
首次发布: 2025-11-11|当前版本:v5.1
协议链接:https://creativecommons.org/licenses/by/4.0/