目录 / 文档-技术白皮书(V5.05) / 18-EFT.WP.Methods.CrossStats v1.0
一句话目标:给出跨统计场景的标准契约 C30-* 与落地策略卡,覆盖采样、估计、不确定度、漂移、实验、校准、因果与服务 SLO,并与清单字段 manifest.stats.* 对齐。
I. 使用说明与命名约定
- 契约标识
统一命名 C30-xxxx name,其中 00xx 为通用基础,31xx 采样与权重,34xx 估计与区间,35xx 重采样与交叉验证,36xx 多重比较,37xx 漂移,38xx A/B,39xx 校准,310x 因果,311x 时序与面板,312x 多层,313x 元分析,314x 服务 SLO 与审计。 - 断言语法
- 使用纯文本不等式与集合:如 |W_norm - 1| ≤ tol_w,alpha_spent ≤ alpha_budget。
- 内联符号用反引号:tau_mono, ts, T_arr, delta_form, W1, KL, psi。
- 严重性与处置
- severity ∈ {info, warn, error, fatal};策略卡规定 act_on(severity)。
- 失败必须记录 audit_log 与 TraceID,并写入 manifest.stats.contracts[*]。
II. 通用基础契约组(跨域必检)
- C30-000 dim_unit_consistency
- 断言:对全部物理量执行 check_dim(expr),且单位已归一。
- 触发:任一 check_dim 失败 → error,调用回滚或隔离(见《Methods.Cleaning v1.0》第4章)。
- C30-001 timebase_alignment
- 断言:non_decreasing(tau_mono) 且发布时附 offset/skew/J。
- 触发:违反单调或缺少时基元数据 → error(见《Methods.Cleaning v1.0》第5章)。
- C30-002 arrival_two_forms
- 断言:delta_form = | ( 1 / c_ref ) * ( ∫ n_eff d ell ) - ( ∫ ( n_eff / c_ref ) d ell ) | ≤ tol_Tarr。
- 触发:delta_form > tol_Tarr → fatal(见《Methods.Cleaning v1.0》第6章)。
- C30-003 missing_mask_declared
- 断言:缺失以 m ∈ {0,1} 标注;插补写入 corr_env(x; RefCond)。
- 触发:隐式填补或未标注缺失 → error。
- C30-004 weight_normalization
- 断言:W_norm = ( ∑ w_i ) / N,|W_norm - 1| ≤ tol_w 且 max(w)/min(w) ≤ cap_w。
- 触发:超界 → warn/error(见第3章)。
- C30-005 reproducibility_manifest
- 断言:manifest.stats 含 TraceID, repro_hash, signature;verify(signature)=true。
- 触发:签名缺失或校验失败 → fatal。
III. 采样与权重契约(对应第3章)
- C30-310 frame_coverage:采样框覆盖率 cov ≥ cov_min。
- C30-311 strat_presence:分层键完整,unique(stratum) ≥ H_min。
- C30-312 cluster_count:有效簇 C ≥ C_min。
- C30-313 deff_cap:DEFF ≤ deff_max。
- C30-314 ess_floor:N_eff = ( ( ∑ w_i )^2 ) / ( ∑ w_i^2 ) ≥ N_eff_min。
- C30-315 weight_trim_policy:若 w_i > w_cap 则启用截尾或重标化,并记录影响比例 p_trim ≤ p_trim_max。
IV. 估计与区间契约(对应第4章)
- C30-340 glm_convergence:得分方程收敛,Hessian 正定;否则启用正则。
- C30-341 se_positive:SE( hat{theta} ) > 0;U = k * u_c 有界。
- C30-342 coverage_target:回测覆盖度 |coverage_rate - target| ≤ eps_cov。
- C30-343 bayes_diagnostics:r_hat ≤ 1.1 且 ESS ≥ ESS_min;ppc 通过阈值 ppc_pass ≥ ppc_min。
- C30-344 prior_sensitivity:关键参数先验敏感性区间宽度 Δprior ≤ Δ_max。
V. 重采样与交叉验证契约(对应第5章)
- C30-350 bootstrap_B_min:B ≥ B_min;分层数据分层重采样。
- C30-351 kfold_K_min:K ≥ 3;leakage_score ≤ leak_max。
- C30-352 cv_stability:折间方差 var_K(metric) ≤ var_max;若超界,增加 K 或启用重复 CV。
VI. 多重比较与错误控制契约(对应第6章)
- C30-360 alpha_budgeting:alpha_spent ≤ alpha_budget。
- C30-361 fwer_cap:家族错误率 FWER ≤ fwer_max(Bonferroni 或 Holm)。
- C30-362 fdr_cap:FDR ≤ fdr_max(BH/BY 或 Storey-q)。
- C30-363 sequential_bounds:序贯界满足预设(OBF/Pocock);越界即停序并落盘。
VII. 漂移、分布对齐契约(对应第7章)
- C30-370 drift_thresholds:W1 ≤ W1_max ∧ KL ≤ KL_max ∧ psi ≤ psi_max。
- C30-371 drift_trend:窗口斜率 drift_slope ≤ slope_max。
- C30-372 align_effectiveness:对齐后残差漂移 drift_post ≤ drift_pre - delta_min。
- C30-373 recalibration_trigger:连续 r_win 窗超阈触发重校准与灰度发布。
VIII. A/B 与多臂试验契约(对应第8章)
- C30-380 sample_size_power:power ≥ power_min 且最小可检效应 MDE ≤ MDE_max。
- C30-381 exposure_balance:暴露比例偏差 |p_t - p_c| ≤ eps_exp;分层随机化误差在阈内。
- C30-382 guardrails:护栏指标(留存、延迟、错误率)均满足 SLO。
- C30-383 alpha_spending_control:序贯 alpha 消耗遵循策略,alpha_spent ≤ alpha_budget。
- C30-384 novelty_quarantine:冷启动期 t_warm 内仅离线观测,不出最终决策。
IX. 校准迁移契约(对应第9章)
- C30-390 monotone_map:校准映射单调,d map / d score ≥ 0。
- C30-391 ece_improvement:ECE_after ≤ ECE_before - delta_min。
- C30-392 brier_gain:Brier_after ≤ Brier_before - delta_min。
- C30-393 generalization_gap:|ECE_val - ECE_test| ≤ gap_max。
- C30-394 threshold_stability:关键阈值漂移 |tau_after - tau_before| ≤ tau_max。
X. 因果推断契约(对应第10章)
- C30-400 overlap:min(ps(x)), min(1-ps(x)) ≥ eps_ol。
- C30-401 cov_balance:标准化差值 |SMD_j| ≤ smd_max 对全部协变量。
- C30-402 dr_consistency:双稳健两路估计差 |ATE_IPW - ATE_OR| ≤ delta_dr。
- C30-403 iv_strength:首阶段 F ≥ 10(或 F ≥ F_min)。
- C30-404 iv_overid:过识别检验 p_value ≥ p_min。
- C30-405 sensitivity_rosenbaum:鲁棒性 Gamma ≥ Gamma_min。
XI. 时间序列与面板契约(对应第11章)
- C30-410 stationarity:单位根检验通过或差分后通过。
- C30-411 resid_autocorr:残差自相关 |rho_k| ≤ rho_max(若超界,修正 HAC)。
- C30-412 structural_break:断点检验 p_value ≤ p_max 时需分段或状态更新。
- C30-413 its_effect:ITS 干预效应显著性与效应方向符合预期。
- C30-414 filter_health:状态空间滤波发散监测,trace(P_t) ≤ P_max。
XII. 多层模型契约(对应第12章)
- C30-420 variance_pos:随机效应方差 tau^2 ≥ 0,数值稳定。
- C30-421 shrinkage_bounds:收缩比例 s ∈ [s_min, s_max]。
- C30-422 group_min_n:群组样本 n_g ≥ n_min 或启用完全层级先验。
- C30-423 fairness_pooling:关键群组区间宽度不恶化 ΔCI_g ≤ Δ_max。
XIII. 元分析契约(对应第13章)
- C30-430 heterogeneity:I2 ≤ I2_max 或采用随机效应并公示 tau^2。
- C30-431 pred_interval:预测区间宽度 PI_width ≤ PI_max。
- C30-432 small_study_bias:Egger 或曲线修剪通过阈值;否则做敏感性分析。
- C30-433 influence_control:单研究影响度 DFBETAS ≤ d_max。
XIV. 统计服务 SLO 与审计契约(对应第14章)
- C30-440 slo_coverage:区间覆盖度 ≥ SLO.coverage_min。
- C30-441 slo_fdr:FDR_published ≤ SLO.fdr_max。
- C30-442 slo_latency:latency_ms_p99 ≤ SLO.latency_p99_max。
- C30-443 slo_drift_alarm:连续 r_win 窗漂移告警进入受控模式。
- C30-444 auditability:每次决策均有 audit_log.hash == repro_hash。
XV. 策略卡模板与示例
- 策略卡模板 SC-TEMPLATE
- 场景:描述触发上下文与相关契约集合 {C30-*}。
- 监测:列出度量、窗口 Delta_t、阈值与严重性映射。
- 决策:decide() 规则树,含灰度与置信门限。
- 动作:act_on(severity) 包含回滚、再训练、限流、校准迁移、停序。
- 审计:记录 TraceID, manifest.stats, signature。
- SC-DRIFT-01 漂移→对齐→重校准
- 关联契约:C30-370/371/372/373。
- 决策:若 W1 > W1_max 且持续 r_win,先应用对齐映射;若 drift_post > drift_pre - delta_min,触发校准迁移与灰度发布。
- 动作:冻结外推实验,提升监控频率,7 日内复核。
- SC-AB-01 序贯 A/B(alpha spending)
- 关联契约:C30-360/363/382/383。
- 决策:S_t 超界即停序;alpha_spent 达 90% 且未显著,扩样或终止。
- 动作:ship 或 rollback,同时落盘 ab_decision。
- SC-CAL-01 校准迁移与阈值稳定
- 关联契约:C30-390/391/392/394。
- 决策:ECE_after ≤ ECE_before - delta_min 且 |tau_after - tau_before| ≤ tau_max 才可放量。
- 动作:保留旧映射 14 天可回退,分群监控。
- SC-CAUSAL-01 去混杂回归
- 关联契约:C30-400/401/402/405。
- 决策:若 overlap 违约则截尾或重设计;DR 两路差超界则停用因果发布。
- SC-SLO-01 SLO 失约处置
- 关联契约:C30-440/441/442/444。
- 决策:覆盖度或延迟失约 → error;连续两窗 → fatal,进入只读模式。
- SC-COVER-01 覆盖度回测失败
- 关联契约:C30-342/434(若含元分析)。
- 动作:增大 B 或采用 BCa,自适应带宽或层级收缩,复测通过后解冻。
XVI. 清单映射(必填键)
- manifest.stats.contracts[*].id(如 C30-370)
- manifest.stats.contracts[*].status ∈ {pass, fail}
- manifest.stats.contracts[*].severity
- manifest.stats.contracts[*].evidence(度量摘要与窗口)
- manifest.stats.actions[*](策略卡动作与结果)
- manifest.stats.signature,TraceID
XVII. 严重性与处置矩阵(摘要)
- info:记录与观察;不影响发布。
- warn:局部降权或灰度;需要复核。
- error:阻断相关发布;允许回退。
- fatal:停序/下线;仅保留审计与只读查询。
XVIII. 交叉引用
- 清洗卷:单位与量纲(第4章)、时基对齐(第5章)、到达时两口径(第6章)、SLO 与审计(第14章)。
- 成像卷:辐射单位与标定一致化(第4章)、质量指标与审计(第14章)。
- 本卷正文:对应第3–15章的契约条目与实现绑定 I30-*(见附录A)。
小结
本附录提供从“断言库”到“策略卡”的一站式规范:度量→阈值→决策→动作→审计,确保跨模态统计在异构数据、在线实验与长期运行中具备统一口径、可追溯与可回退的工程能力。版权与许可:除另有说明外,《能量丝理论》(含文本、图表、插图、符号与公式)的著作权由作者(屠广林)享有。
许可方式(CC BY 4.0):在注明作者与来源的前提下,允许复制、转载、节选、改编与再分发。
署名格式(建议):作者:屠广林|作品:《能量丝理论》|来源:energyfilament.org|许可证:CC BY 4.0
验证召集: 作者独立自费、无雇主无资助;下一阶段将优先在最愿意公开讨论、公开复现、公开挑错的环境中推进落地,不限国家。欢迎各国媒体与同行抓住窗口组织验证,并与我们联系。
版本信息: 首次发布:2025-11-11 | 当前版本:v6.0+5.05