目录 / 文档-技术白皮书 / 46-EFT.WP.Data.Benchmarks v1.0
I. 章节目的与范围
不确定度(uncertainty)**在基准中的规范:检验方法与参数、置信/覆盖区间、效果量与功效、多重比较校正、计量合成与单位口径、与评分/排名/门槛的联动;确保与指标体系、评测协议、数据冻结切分、计量与引用锚点一致。与固化**显著性(significance)II. 术语与依赖
- 术语:p 值、CI_95(95% 置信区间)、Δ(效果量)、MDE(最小可检出差异)、power(检验功效)、coverage(覆盖区间)、u_c(合成标准不确定度)、U=k·u_c(扩展不确定度)、B(bootstrap 次数)。
- 依赖:指标与单位(本卷第6章)、评测协议(《ModelCards v1.0》第11章)、计量合成(《Core.Metrology v1.0:check_dim》)、在线窗口与监控(《Pipeline v1.0》第12章)。
- 数学与符号:内联符号一律用反引号;含除号/积分/复合算符必须加括号;如涉路径量 T_arr,采用
- T_arr = ( 1 / c_ref ) * ( ∫ n_eff d ell ) 或
- T_arr = ( ∫ ( n_eff / c_ref ) d ell ),并声明 gamma(ell) 与 d ell;公式/符号/定义禁用中文。
III. 字段与结构(规范性)
significance:
method: "bootstrap|permutation|t|bayes"
B: 10000 # bootstrap/置换次数
alpha: 0.05
effect_size: "delta|cohens_d|cliffs_delta"
mde: null # 最小可检出差异(可选)
tails: "two|one"
correction: "Holm-Bonferroni|BH|none"
strata: ["task|locale|domain?"] # 分层检验维度(可选)
seed: 1701
uncertainty:
model: "GUM|linear|montecarlo|bayes"
components:
- {name:"stat", type:"random", value: null, unit:"—", distribution:"bootstrap", coverage:{level:0.95}}
- {name:"system", type:"systematic", value:null, unit:"<SI>", distribution:"normal", coverage:{k:2.0}}
correlation:
posture: "independent|groups|covariance"
groups: [{name:"instrument", rho:0.6}]
propagation:
rule: "rss|linear|montecarlo|bayes"
samples: 0
coverage_policy:
target: "CI_95|coverage_95"
k: 2.0
report:
significant_figures: 3
unit_consistency: true
IV. 显著性检验与效果量
- 方法选择:
- bootstrap:默认,建议 B≥10,000;报告 CI_95 与 Δ;
- permutation:对分布/方差不等稳健;
- t:正态近似与方差齐性前提下使用;
- bayes:报告后验区间与 P(Δ>0)。
- 效果量 Δ:按指标方向统一(如对 ECE 取负后比较);必要时给出 cohens_d 或 cliffs_delta。
- 功效与 MDE:在线 A/B 需提供 power≥0.8 或设定 mde 并给出样本量计算。
- 多重比较:默认 Holm-Bonferroni;分层(task/locale/domain)与跨任务比较均需校正。
- 门槛联动:若候选优于基线但 p ≥ alpha,不得晋级或更新排行榜分档。
V. 不确定度建模与合成
- 成分分类:统计成分(抽样引起)与系统成分(标定/设备/环境);分别记录单位与分布。
- 合成规则:
- rss:独立标准不确定度合成 u_c = ( sqrt( Σ u_i^2 ) );
- linear:一阶线性化 u_c = ( sqrt( J Σ J^T ) ),J=( ∂f / ∂x );
- montecarlo|bayes:给出样本数或先验/似然,报告覆盖区间。
- 扩展不确定度:U = ( k * u_c ),正态近似下 k≈2 对应约 95%。
- 量纲一致:复合量合成前先做单位归一,并以 SI 计量通过 check_dim。
VI. 与评分/排名/门槛的结合
- 在评分阶段同时输出 CI_95 或覆盖区间;排名按 score_norm 主排序,Δ/CI_95/p 仅用于晋级决策;
- 门槛(第8章)需引用本章 alpha/B/correction 设置,确保排行榜治理一致。
VII. 机器可读片段(可直接嵌入)
significance:
method: "bootstrap"
B: 10000
alpha: 0.05
effect_size: "delta"
correction: "Holm-Bonferroni"
strata: ["task"]
seed: 1701
uncertainty:
model: "linear"
components:
- {name:"stat", type:"random", value:null, unit:"—", distribution:"bootstrap", coverage:{level:0.95}}
- {name:"device", type:"systematic", value:0.8, unit:"%", distribution:"normal", coverage:{k:2.0}}
correlation: {posture:"groups", groups:[{name:"device", rho:0.6}]}
propagation: {rule:"linear", samples:0}
coverage_policy: {target:"CI_95", k:2.0}
report: {significant_figures:3, unit_consistency:true}
VIII. Lint 规则(节选,规范性)
lint_rules:
- id: SIG.METHOD_ALLOWED
when: "$.significance.method"
assert: "value in ['bootstrap','permutation','t','bayes']"
level: error
- id: SIG.PARAMS_COMPLETE
when: "$.significance"
assert: "has_keys(B, alpha)"
level: error
- id: SIG.CORRECTION_ALLOWED
when: "$.significance.correction"
assert: "value in ['Holm-Bonferroni','BH','none']"
level: error
- id: UNC.MODEL_ALLOWED
when: "$.uncertainty.model"
assert: "value in ['GUM','linear','montecarlo','bayes']"
level: error
- id: UNC.COMPONENTS_DEFINED
when: "$.uncertainty.components"
assert: "len(value) >= 1"
level: error
- id: UNC.PROP_RULE_ALLOWED
when: "$.uncertainty.propagation.rule"
assert: "value in ['rss','linear','montecarlo','bayes']"
level: error
- id: METROLOGY.SI_AND_CHECKDIM
when: "$.metrology"
assert: "units == 'SI' and check_dim == true"
level: error
IX. 交叉引用锚点
- 指标体系与单位:见《EFT.WP.Data.Benchmarks v1.0》第6章。
- 评分、归一化与排名:见第8章。
- 评测协议与显著性设置:见《EFT.WP.Data.ModelCards v1.0》第11章。
- 单位与量纲合成:见《EFT.WP.Core.Metrology v1.0:check_dim》。
X. 本章合规自检
- 显著性配置含 method/B/alpha/correction,效果量 Δ 与(如需)功效/MDE 明确。
- 不确定度模型/成分/相关性/传播与覆盖策略完整,单位为 SI 且 check_dim=true。
- 评分/排名/门槛与本章检验结果联动,未达显著性不晋级。
- 涉 T_arr 的任务或指标已登记 delta_form/path/measure 并通过校核。
- 机器可读片段可直接落盘并通过 Lint;export_manifest.references[] 采用“卷名 vX.Y:锚点”。
版权与许可(CC BY 4.0)
版权声明:除另有说明外,《能量丝理论》(含文本、图表、插图、符号与公式)的著作权由作者(“屠广林”先生)享有。
许可方式:本作品采用 Creative Commons 署名 4.0 国际许可协议(CC BY 4.0)进行许可;在注明作者与来源的前提下,允许为商业或非商业目的进行复制、转载、节选、改编与再分发。
署名格式(建议):作者:“屠广林”;作品:《能量丝理论》;来源:energyfilament.org;许可证:CC BY 4.0。
首次发布: 2025-11-11|当前版本:v5.1
协议链接:https://creativecommons.org/licenses/by/4.0/