目录 / 文档-技术白皮书(V5.05) / 46-EFT.WP.Data.Benchmarks v1.0
I. 章节目的与范围
- 给出本卷关于**基准(benchmark)**的统一口径:如何构建套件、如何定义任务/子任务、如何制定评测协议与计量口径、如何发布可复现实验与排行榜治理。
- 明确适用边界:离线/在线/流式/交互评测;单模型与端到端系统;单数据集与多数据集联合评测;跨模态与跨语种。
- 统一与配套卷的接口与锚点:DatasetCards、ModelCards、Pipeline 以及 SI 计量与单位核验。
II. 定义与术语
- 基准(benchmark):在给定数据与协议下,对被评对象的可复现比较。
- 套件(suite):由若干**任务(task)与子任务(subtask)**组成的组织单元,含公共协议、聚合与治理规则。
- 任务/子任务:规定 io_mode、输入先验、约束与目标指标的评测单元。
- 轨道(track):同一任务下的不同资源/工具/开放度分支(如“闭卷/开卷”“无工具/可用检索”)。
- 提交(submission):一次受理的评测运行与其产物集合(含 run_id、环境锁定与度量报告)。
- 工件(artifact):可校验的文件或对象(以 sha256 绑定)。
- 冻结切分(frozen splits):S_train/S_val/S_test 的索引级不变集合,防止信息泄漏。
- 统计显著性(significance):针对指标差异的统计判定,报告 p、CI_95 与校正法。
- 路径量(如到达时):若出现 T_arr,一律采用
- T_arr = ( 1 / c_ref ) * ( ∫ n_eff d ell ) 或
- T_arr = ( ∫ ( n_eff / c_ref ) d ell ),并声明路径 gamma(ell) 与测度 d ell,通过量纲校核。
III. 背景与动机
- 现有评测常见痛点:数据泄漏未控、协议含糊、指标不可比、环境不可复现、排行榜治理缺位。
- 本卷目标:以协议先行、数据冻结、单位统一、统计审慎、治理透明为原则,提供端到端的基准建设框架。
IV. 设计原则(P01–P05)
- P01 可复现:输入、环境、随机性与实现细节均可锁定;seed 与 deps_lock 必填。
- P02 可计量:所有指标以 SI 单位表达;复合指标先归一再组合,check_dim=true。
- P03 可比较:固定协议、冻结切分、统一聚合口径(macro/micro/weighted)与置信区间。
- P04 可治理:提交流程、审查门槛、撤稿更正与版本化公开透明。
- P05 可扩展:任务/数据/指标/协议可演化,采用语义化版本 vMAJOR.MINOR.PATCH。
V. 适用范围与不在范围
- 在范围:分类/回归/排序/检索/生成/多模态;离线批评测、在线 A/B、流式评测与交互式评测。
- 不在范围:训练配方优化本身、与商业敏感数据绑定的不可公开协议、无法冻结切分的数据。
- 跨卷依赖:
- 数据:见《EFT.WP.Data.DatasetCards v1.0》。
- 模型:见《EFT.WP.Data.ModelCards v1.0》。
- 流水线:见《EFT.WP.Data.Pipeline v1.0》。
VI. 发布物与合规门槛
- 强制导出物:benchmark.yaml/json、protocol.yaml、metrics.yaml、env.lock、splits/*.index、reports/*.jsonl,均附 sha256。
- 门槛:
- 冻结切分与泄漏护栏启用;
- SI 计量与维度校核通过;
- 显著性与不确定度报告齐备;
- 隐私、区域合规与第三方处理登记。
- 排行榜治理:版本冻结线、影子对比、提交冷却期与仲裁流程。
VII. 交叉引用与依赖
- 评测协议与指标:见《EFT.WP.Data.ModelCards v1.0》第11章。
- 性能、成本与扩缩:见《EFT.WP.Data.Pipeline v1.0》第13章。
- 单位与量纲:见《EFT.WP.Core.Metrology v1.0:check_dim》。
- 固定写法示例(跨卷):“见 配套白皮书《能量丝》 第x章 S/P/M/I…”。
VIII. 机器可读总览(规范性)
suite:
id: "eift.benchmarks.core"
title: "EIFT Core Benchmarks"
version: "v1.0.0"
modalities: ["text","image","audio"]
risks: ["leakage","bias","spurious_correlation"]
tasks:
- id: "cls.binary"
io_mode: "offline"
tracks: ["closed-book"]
dataset_ref: "datasets/core_cls@v1.0"
sampling: {strategy:"stratified", strata:[{by:"label"}]}
splits:
train: {frozen:true, index:"splits/train.index", sha256:"<hex>"}
val: {frozen:true, index:"splits/val.index", sha256:"<hex>"}
test: {frozen:true, index:"splits/test.index", sha256:"<hex>"}
leakage_guard: ["per-object","per-scene"]
protocol:
seed: 1701
repeats: 5
temperature: 0.0
tools_allowed: false
runtime_limits: {timeout_s: 3600}
metrics:
- {name:"Acc", unit:"—", higher_is_better:true, agg:"macro"}
- {name:"ECE", unit:"—", higher_is_better:false}
aggregation:
levels: ["task","suite"]
weights: {task:"uniform"}
normalize: {scheme:"zscore", anchors:["baseline.logreg","baseline.rf"]}
significance:
method: "bootstrap"
B: 10000
alpha: 0.05
correction: "Holm-Bonferroni"
env:
hardware: {cpu:"16c", mem_gb:64, gpu:0}
os: "ubuntu-22.04"
containers: ["ghcr.io/eift/runner@sha256:<hex>"]
deps_lock: "env.lock"
baselines:
- {id:"baseline.logreg", impl:"I15-1.logreg", params:{C:1.0}}
- {id:"baseline.rf", impl:"I15-2.rf", params:{n_trees:200}}
export_manifest:
version: "v1.0"
artifacts:
- {path:"benchmark.yaml", sha256:"<hex>"}
- {path:"splits/train.index", sha256:"<hex>"}
- {path:"reports/summary.json", sha256:"<hex>"}
references:
- "EFT.WP.Core.Metrology v1.0:check_dim"
- "EFT.WP.Data.DatasetCards v1.0:Ch.11"
- "EFT.WP.Data.ModelCards v1.0:Ch.11"
IX. Lint 规则(节选,规范性)
lint_rules:
- id: SUITE.ID_FORMAT
when: "$.suite.id"
assert: "matches('^[a-z0-9_.\\-]+$')"
level: error
- id: SPLITS.FROZEN_REQUIRED
when: "$..splits"
assert: "train.frozen == true and val.frozen == true and test.frozen == true"
level: error
- id: LEAKAGE.GUARDS
when: "$..leakage_guard"
assert: "contains_any(['per-object','per-timewindow','per-scene'])"
level: error
- id: METRICS.UNITS_SI
when: "$..metrics[*].unit"
assert: "all_units_in_SI(value) or value == '—'"
level: error
- id: PROTOCOL.SEED_AND_REPEATS
when: "$..protocol"
assert: "has_keys(seed, repeats)"
level: error
- id: SIGNIFICANCE.PARAMS
when: "$..significance"
assert: "has_keys(method, B, alpha)"
level: error
- id: EXPORT.REFERENCES_FORMAT
when: "$.export_manifest.references[*]"
assert: "matches('^[^:]+ v\\d+\\.\\d+:[A-Z].+$')"
level: error
X. 本章合规自检
- 概念口径与术语已统一,suite/tasks/subtasks/tracks 定义清晰。
- 设计原则 P01–P05 可操作且与 DatasetCards/ModelCards/Pipeline 的锚点一致。
- 适用范围与边界明确,跨卷依赖指向有效。
- 发布物与门槛具可验证性(sha256、冻结切分、SI 单位、显著性与合规材料)。
- 机器可读片段可直接落盘;Lint 规则可在门户/CI 中作为阻断项执行。
版权与许可:除另有说明外,《能量丝理论》(含文本、图表、插图、符号与公式)的著作权由作者(屠广林)享有。
许可方式(CC BY 4.0):在注明作者与来源的前提下,允许复制、转载、节选、改编与再分发。
署名格式(建议):作者:屠广林|作品:《能量丝理论》|来源:energyfilament.org|许可证:CC BY 4.0
验证召集: 作者独立自费、无雇主无资助;下一阶段将优先在最愿意公开讨论、公开复现、公开挑错的环境中推进落地,不限国家。欢迎各国媒体与同行抓住窗口组织验证,并与我们联系。
版本信息: 首次发布:2025-11-11 | 当前版本:v6.0+5.05