46-EFT.WP.Data.Benchmarks v1.0 | 第9章显著性与不确定度

目录／文档-技术白皮书（V5.05）／ 46-EFT.WP.Data.Benchmarks v1.0

第9章显著性与不确定度

I. 章节目的与范围

不确定度（uncertainty）**在基准中的规范：检验方法与参数、置信/覆盖区间、效果量与功效、多重比较校正、计量合成与单位口径、与评分/排名/门槛的联动；确保与指标体系、评测协议、数据冻结切分、计量与引用锚点一致。与固化**显著性（significance）

II. 术语与依赖

术语：p 值、CI_95（95% 置信区间）、Δ（效果量）、MDE（最小可检出差异）、power（检验功效）、coverage（覆盖区间）、u_c（合成标准不确定度）、U=k·u_c（扩展不确定度）、B（bootstrap 次数）。
依赖：指标与单位（本卷第6章）、评测协议（《ModelCards v1.0》第11章）、计量合成（《Core.Metrology v1.0:check_dim》）、在线窗口与监控（《Pipeline v1.0》第12章）。
数学与符号：内联符号一律用反引号；含除号/积分/复合算符必须加括号；如涉路径量 T_arr，采用
- T_arr = ( 1 / c_ref ) * ( ∫ n_eff d ell ) 或
- T_arr = ( ∫ ( n_eff / c_ref ) d ell )，并声明 gamma(ell) 与 d ell；公式/符号/定义禁用中文。

III. 字段与结构（规范性）

significance:

method: "bootstrap|permutation|t|bayes"

B: 10000 # bootstrap/置换次数

alpha: 0.05

effect_size: "delta|cohens_d|cliffs_delta"

mde: null # 最小可检出差异（可选）

tails: "two|one"

correction: "Holm-Bonferroni|BH|none"

strata: ["task|locale|domain?"] # 分层检验维度（可选）

seed: 1701

uncertainty:

model: "GUM|linear|montecarlo|bayes"

components:

- {name:"stat", type:"random", value: null, unit:"—", distribution:"bootstrap", coverage:{level:0.95}}

- {name:"system", type:"systematic", value:null, unit:"<SI>", distribution:"normal", coverage:{k:2.0}}

correlation:

posture: "independent|groups|covariance"

groups: [{name:"instrument", rho:0.6}]

propagation:

rule: "rss|linear|montecarlo|bayes"

samples: 0

coverage_policy:

target: "CI_95|coverage_95"

k: 2.0

report:

significant_figures: 3

unit_consistency: true

IV. 显著性检验与效果量

方法选择：
- bootstrap：默认，建议 B≥10,000；报告 CI_95 与 Δ；
- permutation：对分布/方差不等稳健；
- t：正态近似与方差齐性前提下使用；
- bayes：报告后验区间与 P(Δ>0)。
效果量 Δ：按指标方向统一（如对 ECE 取负后比较）；必要时给出 cohens_d 或 cliffs_delta。
功效与 MDE：在线 A/B 需提供 power≥0.8 或设定 mde 并给出样本量计算。
多重比较：默认 Holm-Bonferroni；分层（task/locale/domain）与跨任务比较均需校正。
门槛联动：若候选优于基线但 p ≥ alpha，不得晋级或更新排行榜分档。

V. 不确定度建模与合成

成分分类：统计成分（抽样引起）与系统成分（标定/设备/环境）；分别记录单位与分布。
合成规则：
- rss：独立标准不确定度合成 u_c = ( sqrt( Σ u_i^2 ) )；
- linear：一阶线性化 u_c = ( sqrt( J Σ J^T ) )，J=( ∂f / ∂x )；
- montecarlo|bayes：给出样本数或先验/似然，报告覆盖区间。
扩展不确定度：U = ( k * u_c )，正态近似下 k≈2 对应约 95%。
量纲一致：复合量合成前先做单位归一，并以 SI 计量通过 check_dim。

VI. 与评分/排名/门槛的结合

在评分阶段同时输出 CI_95 或覆盖区间；排名按 score_norm 主排序，Δ/CI_95/p 仅用于晋级决策；
门槛（第8章）需引用本章 alpha/B/correction 设置，确保排行榜治理一致。

VII. 机器可读片段（可直接嵌入）

significance:

method: "bootstrap"

B: 10000

alpha: 0.05

effect_size: "delta"

correction: "Holm-Bonferroni"

strata: ["task"]

seed: 1701

uncertainty:

model: "linear"

components:

- {name:"stat", type:"random", value:null, unit:"—", distribution:"bootstrap", coverage:{level:0.95}}

- {name:"device", type:"systematic", value:0.8, unit:"%", distribution:"normal", coverage:{k:2.0}}

correlation: {posture:"groups", groups:[{name:"device", rho:0.6}]}

propagation: {rule:"linear", samples:0}

coverage_policy: {target:"CI_95", k:2.0}

report: {significant_figures:3, unit_consistency:true}

VIII. Lint 规则（节选，规范性）

lint_rules:

- id: SIG.METHOD_ALLOWED

when: "$.significance.method"

assert: "value in ['bootstrap','permutation','t','bayes']"

level: error

- id: SIG.PARAMS_COMPLETE

when: "$.significance"

assert: "has_keys(B, alpha)"

level: error

- id: SIG.CORRECTION_ALLOWED

when: "$.significance.correction"

assert: "value in ['Holm-Bonferroni','BH','none']"

level: error

- id: UNC.MODEL_ALLOWED

when: "$.uncertainty.model"

assert: "value in ['GUM','linear','montecarlo','bayes']"

level: error

- id: UNC.COMPONENTS_DEFINED

when: "$.uncertainty.components"

assert: "len(value) >= 1"

level: error

- id: UNC.PROP_RULE_ALLOWED

when: "$.uncertainty.propagation.rule"

assert: "value in ['rss','linear','montecarlo','bayes']"

level: error

- id: METROLOGY.SI_AND_CHECKDIM

when: "$.metrology"

assert: "units == 'SI' and check_dim == true"

level: error

IX. 交叉引用锚点

指标体系与单位：见《EFT.WP.Data.Benchmarks v1.0》第6章。
评分、归一化与排名：见第8章。
评测协议与显著性设置：见《EFT.WP.Data.ModelCards v1.0》第11章。
单位与量纲合成：见《EFT.WP.Core.Metrology v1.0:check_dim》。

X. 本章合规自检

显著性配置含 method/B/alpha/correction，效果量 Δ 与（如需）功效/MDE 明确。
不确定度模型/成分/相关性/传播与覆盖策略完整，单位为 SI 且 check_dim=true。
评分/排名/门槛与本章检验结果联动，未达显著性不晋级。
涉 T_arr 的任务或指标已登记 delta_form/path/measure 并通过校核。
机器可读片段可直接落盘并通过 Lint；export_manifest.references[] 采用“卷名 vX.Y:锚点”。

版权与许可：除另有说明外，《能量丝理论》（含文本、图表、插图、符号与公式）的著作权由作者（屠广林）享有。
许可方式（CC BY 4.0）：在注明作者与来源的前提下，允许复制、转载、节选、改编与再分发。
署名格式（建议）：作者：屠广林｜作品：《能量丝理论》｜来源：energyfilament.org｜许可证：CC BY 4.0
验证召集： 作者独立自费、无雇主无资助；下一阶段将优先在最愿意公开讨论、公开复现、公开挑错的环境中推进落地，不限国家。欢迎各国媒体与同行抓住窗口组织验证，并与我们联系。
版本信息： 首次发布：2025-11-11 ｜当前版本：v6.0+5.05