目录 / 文档-技术白皮书 / 46-EFT.WP.Data.Benchmarks v1.0
I. 章节目的与范围
排行榜治理(leaderboard governance)**的规范:提交物结构与校验流程、环境锁定与重放复现、显著性与门槛联动、稳定线与版本治理、申诉与撤回机制、审计与公开披露;确保与任务定义、评测协议、评分与显著性、隐私合规、计量与引用锚点一致。与、**复现(reproducibility)提交(submission)固化II. 术语与依赖
- 术语:submission.payload、attestation(声明)、run_id、env.lock、container@digest、stability_line、gating、tombstone(撤稿墓碑)、appeal、cooldown(冷却期)。
- 依赖:评测协议(《ModelCards v1.0》第11章)、评分/归一化/门槛(本卷第8章)、显著性与不确定度(本卷第9章)、运行环境与计量负载(本卷第10章)、隐私与合规(本卷第14章)、单位与量纲(《Core.Metrology v1.0:check_dim》)。
- 数学与符号:内联符号一律用反引号;含除号/积分/复合算符必须加括号;如涉路径量 T_arr,采用
- T_arr = ( 1 / c_ref ) * ( ∫ n_eff d ell ) 或
- T_arr = ( ∫ ( n_eff / c_ref ) d ell ),并声明 gamma(ell) 与 d ell;公式/符号/定义禁用中文。
III. 字段与结构(规范性)
submission:
submitter:
org: "<org-name>"
contact: "<email>"
payload:
artifacts:
- {path:"reports/summary.json", sha256:"<hex>"}
- {path:"reports/scores.json", sha256:"<hex>"}
- {path:"logs/run.jsonl", sha256:"<hex>"}
- {path:"env.lock", sha256:"<hex>"}
- {path:"protocol.yaml", sha256:"<hex>"}
- {path:"metrics.yaml", sha256:"<hex>"}
checksum: "sha256"
provenance:
run_id: "<RUN-UUID>"
suite_version: "vX.Y"
task_id: "<suite.task>"
splits_ref: {train:"splits/train.index", val:"splits/val.index", test:"splits/test.index"}
env:
containers: ["ghcr.io/eift/runner@sha256:<hex>"]
deps_lock: "env.lock"
scores:
score_raw: {F1_macro:0.81, ECE:0.045}
score_norm: {suite_z: 1.23}
ci: {F1_macro:{lo:0.80, hi:0.82}, ECE:{lo:0.042, hi:0.048}}
significance:
vs_baseline: {baseline_id:"baseline.rf", method:"bootstrap", B:10000, alpha:0.05, p:0.012, correction:"Holm-Bonferroni"}
attestation:
author: "<name>"
date: "<YYYY-MM-DD>"
statement: "frozen splits used; no external data/tools unless declared; units in SI; check_dim=true"
see:
- "EFT.WP.Core.Metrology v1.0:check_dim"
- "EFT.WP.Data.Benchmarks v1.0:Ch.8"
- "EFT.WP.Data.Benchmarks v1.0:Ch.9"
IV. 提交流程与校验
- 接收:仅接受机器可读负载与 sha256 校验通过的工件;任一缺失或哈希不符即阻断。
- 结构校验:执行Schema + Lint(第15章);必须包含 reports/scores.json、env.lock、protocol.yaml、metrics.yaml、运行日志与 export_manifest。
- 一致性:检查 suite_version/task_id/splits_ref 与官方冻结切分一致;协议字段与任务约束一致。
- 隐私合规:对提交工件执行 DLP;命中规则按第14章隔离与修订。
V. 复现与重放
- 环境锁定:容器固定 @sha256,依赖使用 env.lock;记录内核与驱动版本、线程与亲和策略。
- 重放:通过 run_id 与 inputs_lock(如适用)在同一环境重放,结果应落在 ci 报告区间;不满足即标注“复现失败”。
- 敏感度:若环境变化导致结果漂移,需附 Δ±CI_95 并说明影响。
VI. 排行榜治理
- 稳定线:采用 stability_line: "v1.*";跨主版本结果分榜展示。
- 门槛:仅在合规通过后应用第8章评分门槛与第9章显著性门槛(p<α、B≥10k)。
- 冷却期:同一主体的连续提交需满足 cooldown(如 24 小时),防止榜单刷屏。
- 权重与并列:排名依据 score_norm,并列按 tie_break;弱/强基线与 Oracle 独立列展示。
- 版本治理:小版本更新触发影子对比;若差异超阈,需发布公告并允许申诉。
VII. 撤回、更正与申诉
- 撤回:发现违规/泄漏/复现失败时,发出撤稿;在榜单生成**墓碑(tombstone)**保留记录并说明原因。
- 更正:提交者可在限定窗口内更正错误工件;更正项须重评与再次合规检查。
- 申诉:提供 appeal_window_days 与联系渠道;仲裁流程公开透明,裁决结果公示。
VIII. 审计与公开披露
- 审计轨:提交、校验、评测、发布/撤回全过程生成审计日志并具 sha256;
- 公开材料:在门户公开 scores.json/ci.json/leaderboard.csv 与版本变更说明;敏感字段去标识化或聚合展示。
IX. 计量与单位(SI)
- 强制:metrology:{units:"SI", check_dim:true};性能/能耗/体量/网络等采用 SI(QPS(1/s)、T_inf(ms)、ρ(—)、size_bytes、net_mbps);复合量合成或比较前先做单位归一。
- 路径量:如提交涉及 T_arr 相关实验,需登记 delta_form/path/measure 并按两种等价式通过 check_dim。
X. 机器可读片段(可直接嵌入)
submission:
submitter: {org:"eift", contact:"bench@eift.org"}
payload:
artifacts:
- {path:"reports/scores.json", sha256:"..."}
- {path:"reports/summary.json", sha256:"..."}
- {path:"env.lock", sha256:"..."}
- {path:"protocol.yaml", sha256:"..."}
provenance:
run_id: "RUN-2025-09-21-001"
suite_version: "v1.0"
task_id: "cls.binary"
splits_ref: {train:"splits/train.index", val:"splits/val.index", test:"splits/test.index"}
env: {containers:["ghcr.io/eift/runner@sha256:abcdef..."], deps_lock:"env.lock"}
scores:
score_raw: {F1_macro:0.81, ECE:0.045}
score_norm: {suite_z:1.23}
ci: {F1_macro:{lo:0.80, hi:0.82}}
significance: {vs_baseline:{baseline_id:"baseline.rf", method:"bootstrap", B:10000, alpha:0.05, p:0.012}}
attestation: {author:"teamA", date:"2025-09-21", statement:"frozen splits; SI units; check_dim=true"}
governance:
stability_line: "v1.*"
cooldown: "P1D"
gating: {require_ci:true, min_runs:3}
metrology: {units:"SI", check_dim:true}
XI. Lint 规则(节选,规范性)
lint_rules:
- id: SUBM.ARTIFACTS_REQUIRED
when: "$.submission.payload.artifacts"
assert: "contains_files(['reports/scores.json','env.lock','protocol.yaml','metrics.yaml'])"
level: error
- id: SUBM.HASH_REQUIRED
when: "$.submission.payload.artifacts[*].sha256"
assert: "len(value) > 0"
level: error
- id: SUBM.SPLITS_MATCH_FROZEN
when: "$.submission.provenance.splits_ref"
assert: "files_exist(value) and all_frozen(value)"
level: error
- id: SUBM.CI_PRESENT
when: "$.submission.scores.ci"
assert: "has_any_ci(value)"
level: warn
- id: GOV.COOLDOWN_FORMAT
when: "$.governance.cooldown"
assert: "matches('^P\\d+[D]$') or duration_valid(value)"
level: error
- id: METROLOGY.SI_AND_CHECKDIM
when: "$.metrology"
assert: "units == 'SI' and check_dim == true"
level: error
XII. 交叉引用锚点
- 评分/归一化/门槛:见《EFT.WP.Data.Benchmarks v1.0》第8章。
- 显著性与不确定度:见第9章。
- 运行环境与计量负载:见第10章。
- 隐私、安全与合规:见第14章。
- 单位与量纲校核:见《EFT.WP.Core.Metrology v1.0:check_dim》。
XIII. 本章合规自检
- 提交物结构与哈希校验完整,suite_version/task_id/splits_ref 与官方冻结切分一致。
- 复现与重放在相同容器与 env.lock 下可对齐至 CI_95;敏感度分析已报告。
- 排行榜治理遵循稳定线、门槛与冷却期;撤回/更正与申诉流程固定并可审计。
- SI 计量与 check_dim=true 生效;如涉 T_arr 已登记 delta_form/path/measure 并通过校核。
- 机器可读片段可直接落盘并通过 Lint;export_manifest.references[] 采用“卷名 vX.Y:锚点”。
版权与许可(CC BY 4.0)
版权声明:除另有说明外,《能量丝理论》(含文本、图表、插图、符号与公式)的著作权由作者(“屠广林”先生)享有。
许可方式:本作品采用 Creative Commons 署名 4.0 国际许可协议(CC BY 4.0)进行许可;在注明作者与来源的前提下,允许为商业或非商业目的进行复制、转载、节选、改编与再分发。
署名格式(建议):作者:“屠广林”;作品:《能量丝理论》;来源:energyfilament.org;许可证:CC BY 4.0。
首次发布: 2025-11-11|当前版本:v5.1
协议链接:https://creativecommons.org/licenses/by/4.0/