46-EFT.WP.Data.Benchmarks v1.0 | 第1章概述与范围

目录／文档-技术白皮书（V5.05）／ 46-EFT.WP.Data.Benchmarks v1.0

第1章概述与范围

I. 章节目的与范围

给出本卷关于**基准（benchmark）**的统一口径：如何构建套件、如何定义任务/子任务、如何制定评测协议与计量口径、如何发布可复现实验与排行榜治理。
明确适用边界：离线/在线/流式/交互评测；单模型与端到端系统；单数据集与多数据集联合评测；跨模态与跨语种。
统一与配套卷的接口与锚点：DatasetCards、ModelCards、Pipeline 以及 SI 计量与单位核验。

II. 定义与术语

基准（benchmark）：在给定数据与协议下，对被评对象的可复现比较。
套件（suite）：由若干**任务（task）与子任务（subtask）**组成的组织单元，含公共协议、聚合与治理规则。
任务/子任务：规定 io_mode、输入先验、约束与目标指标的评测单元。
轨道（track）：同一任务下的不同资源/工具/开放度分支（如“闭卷/开卷”“无工具/可用检索”）。
提交（submission）：一次受理的评测运行与其产物集合（含 run_id、环境锁定与度量报告）。
工件（artifact）：可校验的文件或对象（以 sha256 绑定）。
冻结切分（frozen splits）：S_train/S_val/S_test 的索引级不变集合，防止信息泄漏。
统计显著性（significance）：针对指标差异的统计判定，报告 p、CI_95 与校正法。
路径量（如到达时）：若出现 T_arr，一律采用
- T_arr = ( 1 / c_ref ) * ( ∫ n_eff d ell ) 或
- T_arr = ( ∫ ( n_eff / c_ref ) d ell )，并声明路径 gamma(ell) 与测度 d ell，通过量纲校核。

III. 背景与动机

现有评测常见痛点：数据泄漏未控、协议含糊、指标不可比、环境不可复现、排行榜治理缺位。
本卷目标：以协议先行、数据冻结、单位统一、统计审慎、治理透明为原则，提供端到端的基准建设框架。

IV. 设计原则（P01–P05）

P01 可复现：输入、环境、随机性与实现细节均可锁定；seed 与 deps_lock 必填。
P02 可计量：所有指标以 SI 单位表达；复合指标先归一再组合，check_dim=true。
P03 可比较：固定协议、冻结切分、统一聚合口径（macro/micro/weighted）与置信区间。
P04 可治理：提交流程、审查门槛、撤稿更正与版本化公开透明。
P05 可扩展：任务/数据/指标/协议可演化，采用语义化版本 vMAJOR.MINOR.PATCH。

V. 适用范围与不在范围

在范围：分类/回归/排序/检索/生成/多模态；离线批评测、在线 A/B、流式评测与交互式评测。
不在范围：训练配方优化本身、与商业敏感数据绑定的不可公开协议、无法冻结切分的数据。
跨卷依赖：
- 数据：见《EFT.WP.Data.DatasetCards v1.0》。
- 模型：见《EFT.WP.Data.ModelCards v1.0》。
- 流水线：见《EFT.WP.Data.Pipeline v1.0》。

VI. 发布物与合规门槛

强制导出物：benchmark.yaml/json、protocol.yaml、metrics.yaml、env.lock、splits/*.index、reports/*.jsonl，均附 sha256。
门槛：
- 冻结切分与泄漏护栏启用；
- SI 计量与维度校核通过；
- 显著性与不确定度报告齐备；
- 隐私、区域合规与第三方处理登记。
排行榜治理：版本冻结线、影子对比、提交冷却期与仲裁流程。

VII. 交叉引用与依赖

评测协议与指标：见《EFT.WP.Data.ModelCards v1.0》第11章。
性能、成本与扩缩：见《EFT.WP.Data.Pipeline v1.0》第13章。
单位与量纲：见《EFT.WP.Core.Metrology v1.0:check_dim》。
固定写法示例（跨卷）：“见配套白皮书《能量丝》第x章 S/P/M/I…”。

VIII. 机器可读总览（规范性）

suite:

id: "eift.benchmarks.core"

title: "EIFT Core Benchmarks"

version: "v1.0.0"

modalities: ["text","image","audio"]

risks: ["leakage","bias","spurious_correlation"]

tasks:

- id: "cls.binary"

io_mode: "offline"

tracks: ["closed-book"]

dataset_ref: "datasets/core_cls@v1.0"

sampling: {strategy:"stratified", strata:[{by:"label"}]}

splits:

train: {frozen:true, index:"splits/train.index", sha256:"<hex>"}

val: {frozen:true, index:"splits/val.index", sha256:"<hex>"}

test: {frozen:true, index:"splits/test.index", sha256:"<hex>"}

leakage_guard: ["per-object","per-scene"]

protocol:

seed: 1701

repeats: 5

temperature: 0.0

tools_allowed: false

runtime_limits: {timeout_s: 3600}

metrics:

- {name:"Acc", unit:"—", higher_is_better:true, agg:"macro"}

- {name:"ECE", unit:"—", higher_is_better:false}

aggregation:

levels: ["task","suite"]

weights: {task:"uniform"}

normalize: {scheme:"zscore", anchors:["baseline.logreg","baseline.rf"]}

significance:

method: "bootstrap"

B: 10000

alpha: 0.05

correction: "Holm-Bonferroni"

env:

hardware: {cpu:"16c", mem_gb:64, gpu:0}

os: "ubuntu-22.04"

containers: ["ghcr.io/eift/runner@sha256:<hex>"]

deps_lock: "env.lock"

baselines:

- {id:"baseline.logreg", impl:"I15-1.logreg", params:{C:1.0}}

- {id:"baseline.rf", impl:"I15-2.rf", params:{n_trees:200}}

export_manifest:

version: "v1.0"

artifacts:

- {path:"benchmark.yaml", sha256:"<hex>"}

- {path:"splits/train.index", sha256:"<hex>"}

- {path:"reports/summary.json", sha256:"<hex>"}

references:

- "EFT.WP.Core.Metrology v1.0:check_dim"

- "EFT.WP.Data.DatasetCards v1.0:Ch.11"

- "EFT.WP.Data.ModelCards v1.0:Ch.11"

IX. Lint 规则（节选，规范性）

lint_rules:

- id: SUITE.ID_FORMAT

when: "$.suite.id"

assert: "matches('^[a-z0-9_.\\-]+$')"

level: error

- id: SPLITS.FROZEN_REQUIRED

when: "$..splits"

assert: "train.frozen == true and val.frozen == true and test.frozen == true"

level: error

- id: LEAKAGE.GUARDS

when: "$..leakage_guard"

assert: "contains_any(['per-object','per-timewindow','per-scene'])"

level: error

- id: METRICS.UNITS_SI

when: "$..metrics[*].unit"

assert: "all_units_in_SI(value) or value == '—'"

level: error

- id: PROTOCOL.SEED_AND_REPEATS

when: "$..protocol"

assert: "has_keys(seed, repeats)"

level: error

- id: SIGNIFICANCE.PARAMS

when: "$..significance"

assert: "has_keys(method, B, alpha)"

level: error

- id: EXPORT.REFERENCES_FORMAT

when: "$.export_manifest.references[*]"

assert: "matches('^[^:]+ v\\d+\\.\\d+:[A-Z].+$')"

level: error

X. 本章合规自检

概念口径与术语已统一，suite/tasks/subtasks/tracks 定义清晰。
设计原则 P01–P05 可操作且与 DatasetCards/ModelCards/Pipeline 的锚点一致。
适用范围与边界明确，跨卷依赖指向有效。
发布物与门槛具可验证性（sha256、冻结切分、SI 单位、显著性与合规材料）。
机器可读片段可直接落盘；Lint 规则可在门户/CI 中作为阻断项执行。

版权与许可：除另有说明外，《能量丝理论》（含文本、图表、插图、符号与公式）的著作权由作者（屠广林）享有。
许可方式（CC BY 4.0）：在注明作者与来源的前提下，允许复制、转载、节选、改编与再分发。
署名格式（建议）：作者：屠广林｜作品：《能量丝理论》｜来源：energyfilament.org｜许可证：CC BY 4.0
验证召集： 作者独立自费、无雇主无资助；下一阶段将优先在最愿意公开讨论、公开复现、公开挑错的环境中推进落地，不限国家。欢迎各国媒体与同行抓住窗口组织验证，并与我们联系。
版本信息： 首次发布：2025-11-11 ｜当前版本：v6.0+5.05