目录文档-技术白皮书46-EFT.WP.Data.Benchmarks v1.0

第9章 显著性与不确定度


I. 章节目的与范围

不确定度(uncertainty)**在基准中的规范:检验方法与参数、置信/覆盖区间、效果量与功效、多重比较校正、计量合成与单位口径、与评分/排名/门槛的联动;确保与指标体系、评测协议、数据冻结切分、计量与引用锚点一致。固化**显著性(significance)

II. 术语与依赖

  1. 术语:p 值、CI_95(95% 置信区间)、Δ(效果量)、MDE(最小可检出差异)、power(检验功效)、coverage(覆盖区间)、u_c(合成标准不确定度)、U=k·u_c(扩展不确定度)、B(bootstrap 次数)。
  2. 依赖:指标与单位(本卷第6章)、评测协议(《ModelCards v1.0》第11章)、计量合成(《Core.Metrology v1.0:check_dim》)、在线窗口与监控(《Pipeline v1.0》第12章)。
  3. 数学与符号:内联符号一律用反引号;含除号/积分/复合算符必须加括号;如涉路径量 T_arr,采用
    • T_arr = ( 1 / c_ref ) * ( ∫ n_eff d ell ) 或
    • T_arr = ( ∫ ( n_eff / c_ref ) d ell ),并声明 gamma(ell) 与 d ell;公式/符号/定义禁用中文

III. 字段与结构(规范性)

significance:

method: "bootstrap|permutation|t|bayes"

B: 10000 # bootstrap/置换次数

alpha: 0.05

effect_size: "delta|cohens_d|cliffs_delta"

mde: null # 最小可检出差异(可选)

tails: "two|one"

correction: "Holm-Bonferroni|BH|none"

strata: ["task|locale|domain?"] # 分层检验维度(可选)

seed: 1701

uncertainty:

model: "GUM|linear|montecarlo|bayes"

components:

- {name:"stat", type:"random", value: null, unit:"—", distribution:"bootstrap", coverage:{level:0.95}}

- {name:"system", type:"systematic", value:null, unit:"<SI>", distribution:"normal", coverage:{k:2.0}}

correlation:

posture: "independent|groups|covariance"

groups: [{name:"instrument", rho:0.6}]

propagation:

rule: "rss|linear|montecarlo|bayes"

samples: 0

coverage_policy:

target: "CI_95|coverage_95"

k: 2.0

report:

significant_figures: 3

unit_consistency: true


IV. 显著性检验与效果量

  1. 方法选择
    • bootstrap:默认,建议 B≥10,000;报告 CI_95 与 Δ;
    • permutation:对分布/方差不等稳健;
    • t:正态近似与方差齐性前提下使用;
    • bayes:报告后验区间与 P(Δ>0)。
  2. 效果量 Δ:按指标方向统一(如对 ECE 取负后比较);必要时给出 cohens_d 或 cliffs_delta。
  3. 功效与 MDE:在线 A/B 需提供 power≥0.8 或设定 mde 并给出样本量计算。
  4. 多重比较:默认 Holm-Bonferroni;分层(task/locale/domain)与跨任务比较均需校正。
  5. 门槛联动:若候选优于基线但 p ≥ alpha,不得晋级或更新排行榜分档。

V. 不确定度建模与合成

  1. 成分分类:统计成分(抽样引起)与系统成分(标定/设备/环境);分别记录单位与分布。
  2. 合成规则
    • rss:独立标准不确定度合成 u_c = ( sqrt( Σ u_i^2 ) );
    • linear:一阶线性化 u_c = ( sqrt( J Σ J^T ) ),J=( ∂f / ∂x );
    • montecarlo|bayes:给出样本数或先验/似然,报告覆盖区间。
  3. 扩展不确定度:U = ( k * u_c ),正态近似下 k≈2 对应约 95%。
  4. 量纲一致:复合量合成前先做单位归一,并以 SI 计量通过 check_dim。

VI. 与评分/排名/门槛的结合


VII. 机器可读片段(可直接嵌入)

significance:

method: "bootstrap"

B: 10000

alpha: 0.05

effect_size: "delta"

correction: "Holm-Bonferroni"

strata: ["task"]

seed: 1701

uncertainty:

model: "linear"

components:

- {name:"stat", type:"random", value:null, unit:"—", distribution:"bootstrap", coverage:{level:0.95}}

- {name:"device", type:"systematic", value:0.8, unit:"%", distribution:"normal", coverage:{k:2.0}}

correlation: {posture:"groups", groups:[{name:"device", rho:0.6}]}

propagation: {rule:"linear", samples:0}

coverage_policy: {target:"CI_95", k:2.0}

report: {significant_figures:3, unit_consistency:true}


VIII. Lint 规则(节选,规范性)

lint_rules:

- id: SIG.METHOD_ALLOWED

when: "$.significance.method"

assert: "value in ['bootstrap','permutation','t','bayes']"

level: error

- id: SIG.PARAMS_COMPLETE

when: "$.significance"

assert: "has_keys(B, alpha)"

level: error

- id: SIG.CORRECTION_ALLOWED

when: "$.significance.correction"

assert: "value in ['Holm-Bonferroni','BH','none']"

level: error

- id: UNC.MODEL_ALLOWED

when: "$.uncertainty.model"

assert: "value in ['GUM','linear','montecarlo','bayes']"

level: error

- id: UNC.COMPONENTS_DEFINED

when: "$.uncertainty.components"

assert: "len(value) >= 1"

level: error

- id: UNC.PROP_RULE_ALLOWED

when: "$.uncertainty.propagation.rule"

assert: "value in ['rss','linear','montecarlo','bayes']"

level: error

- id: METROLOGY.SI_AND_CHECKDIM

when: "$.metrology"

assert: "units == 'SI' and check_dim == true"

level: error


IX. 交叉引用锚点


X. 本章合规自检


版权与许可(CC BY 4.0)

版权声明:除另有说明外,《能量丝理论》(含文本、图表、插图、符号与公式)的著作权由作者(“屠广林”先生)享有。
许可方式:本作品采用 Creative Commons 署名 4.0 国际许可协议(CC BY 4.0)进行许可;在注明作者与来源的前提下,允许为商业或非商业目的进行复制、转载、节选、改编与再分发。
署名格式(建议):作者:“屠广林”;作品:《能量丝理论》;来源:energyfilament.org;许可证:CC BY 4.0。

首次发布: 2025-11-11|当前版本:v5.1
协议链接:https://creativecommons.org/licenses/by/4.0/