46-EFT.WP.Data.Benchmarks v1.0 | 第11章基线与上限

目录／文档-技术白皮书（V5.05）／ 46-EFT.WP.Data.Benchmarks v1.0

第11章基线与上限

I. 章节目的与范围

上限（upper bound / oracle）**在基准中的定义、构建与报告规范：弱/强基线、随机与启发式基线、Oracle/上限估计、复现实验脚本与环境锁定、评分与显著性联动、治理与公示要求；确保与任务定义、指标体系、评测协议、计量与引用锚点一致。与固化**基线（baseline）

II. 术语与依赖

术语：weak_baseline、strong_baseline、random_baseline、oracle/upper_bound、expected_scores、attestation（出具声明）、repro_script、env.lock、anchors（归一化锚点）。
依赖：指标与单位（本卷第6章）、评测协议（《ModelCards v1.0》第11章）、运行环境（本卷第10章）、评分与排名（第8章）、单位与量纲核验（《Core.Metrology v1.0:check_dim》）。
数学与符号：内联符号一律用反引号；凡含除号/积分/复合算符必须加括号；若涉路径量 T_arr，采用
- T_arr = ( 1 / c_ref ) * ( ∫ n_eff d ell ) 或
- T_arr = ( ∫ ( n_eff / c_ref ) d ell )，并声明 gamma(ell) 与 d ell；公式/符号/定义禁用中文。

III. 字段与结构（规范性）

baselines:

- id: "<baseline.id>"

title: "<Human-readable name>"

class: "weak|strong|random|oracle"

evaluatee: "model|system|pipeline"

impl: "I15-<id>|container@digest"

params:

# 模型/系统关键参数（显式）

lr: 3.0e-4

batch_size: 256

seed: 1701

data:

dataset_ref: "datasets/<name>@vX.Y"

splits:

train: {frozen:true, index:"splits/train.index", sha256:"<hex>"}

val: {frozen:true, index:"splits/val.index", sha256:"<hex>"}

test: {frozen:true, index:"splits/test.index", sha256:"<hex>"}

leakage_guard: ["per-object","per-timewindow"]

protocol_ref: "protocols/<task>@vX.Y" # 与第7章协议一致

env:

containers: ["ghcr.io/eift/runner@sha256:<hex>"]

deps_lock: "env.lock"

expected_scores:

metrics: {F1_macro: 0.75, ECE: 0.06, "latency_ms.p99": 180}

target_ci: {method:"bootstrap", level:0.95}

artifacts:

repro_script: "scripts/repro_<baseline>.sh"

logs: ["logs/<run>.jsonl"]

model_files: ["weights/<file>.bin?"]

attestation:

author: "<name or org>"

date: "<YYYY-MM-DD>"

statement: "follows frozen splits; no external data/tools unless declared"

see:

- "EFT.WP.Core.Metrology v1.0:check_dim"

- "EFT.WP.Data.ModelCards v1.0:Ch.11"

- "EFT.WP.Data.Benchmarks v1.0:Ch.6"

IV. 基线与上限的定义与口径

弱基线（weak_baseline）：简单/廉价的可复制方法（如逻辑回归、朴素检索），用于归一化锚点或最低对照。
强基线（strong_baseline）：当前公认的较强公开方法，具环境锁定与完整复现脚本；用于稳定线比较与版本迁移。
随机基线（random_baseline）：严格遵循任务约束的随机策略（如均匀/先验分布抽样），用于检验任务信号强度与协议合理性。
上限/Oracle（oracle/upper_bound）：在不违反协议前提下的理论或启发式上限（如使用真实标签的检索器仅用于召回上界估计、或人工后验修正）；Oracle 分数不得参与正式排名，仅作上界参考并单列展示。
预期分数（expected_scores）：基于冻结切分与固定协议的参考区间（含 CI_95），供提交方验证环境一致性与回归监测。

V. 复现实验与环境锁定

脚本与容器：repro_script 可一键执行，容器固定 @sha256，env.lock 精确到库与驱动版本。
随机性：固定 seed，并记录框架线程与亲和策略；多次运行应落在 expected_scores 的 CI_95 内。
日志与报告：结构化 jsonl 日志、汇总报告与火焰图/性能曲线纳入导出并具 sha256。

VI. 与评分/归一化/排名的联动

** anchors ：fixed-anchor 归一化应优先选用公开弱/强基线**作为锚点；锚点 ID 与哈希在导出清单固定。
** gating ：排行榜更新需与第8章的显著性门槛**一致：若新提交优于强基线但 p≥α，不得晋级。
** 展示 ：基线与上限在榜单上以专栏**展示（不干扰正式名次），提供链接至复现工件。

VII. 随机/Oracle 的约束

随机：严格遵守输入/资源/工具约束，不得使用额外先验；报告均值与 CI_95，重复次数≥5。
Oracle：只能作为诊断工具，其构造应清晰说明使用了哪些额外信息；结果仅做上界，不参与得分归一化或排名。

VIII. 计量与单位（SI）

强制：metrology:{units:"SI", check_dim:true}；性能与资源按 SI 报告（QPS(1/s)、T_inf(ms)、ρ(—)、net_mbps、size_bytes）；复合量合成前先做单位归一。
路径量：如基线/上限涉及 T_arr，登记 delta_form/path/measure 并采用两种等价式之一通过 check_dim。

IX. 机器可读片段（可直接嵌入）

baselines:

- id: "baseline.logreg"

title: "Logistic Regression (BoW)"

class: "weak"

evaluatee: "model"

impl: "I15-1.logreg"

params: {lr:3.0e-4, batch_size:256, seed:1701}

data:

dataset_ref: "datasets/core_cls@v1.0"

splits:

train: {frozen:true, index:"splits/train.index", sha256:"..."}

val: {frozen:true, index:"splits/val.index", sha256:"..."}

test: {frozen:true, index:"splits/test.index", sha256:"..."}

leakage_guard: ["per-object"]

protocol_ref: "protocols/cls_offline@v1.0"

env: {containers:["ghcr.io/eift/runner@sha256:abcdef..."], deps_lock:"env.lock"}

expected_scores:

metrics: {Acc:0.84, F1_macro:0.75, ECE:0.06}

target_ci: {method:"bootstrap", level:0.95}

artifacts:

repro_script: "scripts/repro_logreg.sh"

logs: ["logs/logreg_run1.jsonl"]

attestation:

author: "EIFT Core"

date: "2025-09-21"

statement: "frozen splits; no external tools/data"

X. Lint 规则（节选，规范性）

lint_rules:

- id: BASE.ID_FORMAT

when: "$.baselines[*].id"

assert: "matches('^[a-z0-9_.\\-]+$')"

level: error

- id: BASE.CLASS_ALLOWED

when: "$.baselines[*].class"

assert: "value in ['weak','strong','random','oracle']"

level: error

- id: BASE.SPLITS_FROZEN

when: "$.baselines[*].data.splits"

assert: "splits.train.frozen and splits.val.frozen and splits.test.frozen"

level: error

- id: BASE.PROTOCOL_REF

when: "$.baselines[*].protocol_ref"

assert: "value != null"

level: error

- id: BASE.ENV_LOCKED

when: "$.baselines[*].env"

assert: "len($.baselines[*].env.containers) >= 1 and has_key($.baselines[*].env.deps_lock)"

level: error

- id: BASE.EXPECTED_SCORES_CI

when: "$.baselines[*].expected_scores.target_ci"

assert: "has_keys(method, level)"

level: error

- id: METROLOGY.SI_AND_CHECKDIM

when: "$.metrology"

assert: "units == 'SI' and check_dim == true"

level: error

XI. 交叉引用锚点

指标与单位：见《EFT.WP.Data.Benchmarks v1.0》第6章。
评测协议：见《EFT.WP.Data.ModelCards v1.0》第11章。
评分/归一化/排名：见本卷第8章。
运行环境：见本卷第10章；单位与量纲：见《EFT.WP.Core.Metrology v1.0:check_dim》。

XII. 本章合规自检

基线/上限定义完整，class/evaluatee/impl/params/data/protocol_ref/env 等字段齐备。
冻结切分与泄漏护栏生效，repro_script 与容器 @digest、env.lock 可用于一键复现。
预期分数含 CI_95，新提交对强基线晋级需满足显著性门槛与最小重复数。
归一化锚点引用公开基线并具 sha256；Oracle 结果不参与正式排名。
SI 计量与 check_dim=true 生效；若涉 T_arr 已登记 delta_form/path/measure 并通过校核。
机器可读片段可直接落盘并通过 Lint；export_manifest.references[] 采用“卷名 vX.Y:锚点”。

版权与许可：除另有说明外，《能量丝理论》（含文本、图表、插图、符号与公式）的著作权由作者（屠广林）享有。
许可方式（CC BY 4.0）：在注明作者与来源的前提下，允许复制、转载、节选、改编与再分发。
署名格式（建议）：作者：屠广林｜作品：《能量丝理论》｜来源：energyfilament.org｜许可证：CC BY 4.0
验证召集： 作者独立自费、无雇主无资助；下一阶段将优先在最愿意公开讨论、公开复现、公开挑错的环境中推进落地，不限国家。欢迎各国媒体与同行抓住窗口组织验证，并与我们联系。
版本信息： 首次发布：2025-11-11 ｜当前版本：v6.0+5.05