53-模型卡 Template v1.0 | 第8章评测基准与对比评分（Bench/Score）

目录／文档-技术白皮书（V5.05）／ 53-模型卡 Template v1.0

第8章评测基准与对比评分（Bench/Score）

I. 目标与范围（Purpose & Scope）

规范评测基准（Benchmarks）与对比评分（Comparative Scoring）的任务定义、统计口径、泄漏防护与发布规则，统一指标区间、权重与门阈映射，使评测结果可复现、可审计、可比较。
凡涉及路径量（到达时/相位），正文显式路径 gamma(ell) 与测度 d ell，数据侧记录 delta_form ∈ {general, factored}；所有表达一律括号化，发布要求 p_dim = 1.0。

II. 前置条件与输入（Prerequisites & Inputs）

数据与切分：与《数据集卡》Ch.4/Ch.6/Ch.7/Ch.11 对齐（schema/splits/QC/bench），禁止跨 split 实体/窗口混用。
训练协议：与本卷第6章一致（train_config.yaml、随机源与环境快照）。
覆盖与协方差：与《误差预算卡》统一（coverage ∈ {k, alpha, quantile}、Σ PD）。
引用与版本：一律“卷名 + 版本 + 锚点（P/S/M/I）”，锚点直指率 ≥ 90%；对外仅 v1.*。

III. 基准任务与可比性（Bench Tasks & Comparability）

任务定义：分类/回归/时序/路径/多模态；对每任务给出输入/输出字段、单位/量纲与评测窗口。
契约对齐：若对照公共基准，列出字段映射与差异（见 bench_plan.yaml）；内部基准需给定固定切分与种子。
重复与收敛：每项指标同时汇报点估计与区间（k/alpha/quantile），并提供重复试验或自举收敛诊断。

IV. 泄漏防护与一致性（Leakage Prevention & Consistency）

时间泄漏：TS → {train < val < test} 单调切分；严禁跨窗特征派生。
实体泄漏：group_by(entity)；确保实体不跨 split。
路径一致：len(gamma_ell)=len(d_ell)=len(n_eff)≥2，Δell ≤ ( c_ref / f_s ) / max(n_eff)；相位在参考窗对齐后计算 r_phi。

V. 指标与区间（Metrics & Intervals）

主指标（示例）：AUC、ACC、MAE、RMSE、r_phi、ε_flux、Q_res、Latency_P95/Throughput（若含性能约束）。
区间规则：
- k 覆盖：U = k·u_c；
- alpha：t_{ν,1−α/2} 或正态近似；
- quantile：如 [0.025, 0.975]；全卷任选其一并保持一致。

VI. 对比评分映射（Scoring Mapping）

规范化：z_m = ( m − m_baseline ) / σ_baseline（若“越大越好”则方向翻转）。
Sigmoid 记分：q_m = 1 / ( 1 + exp( a z_m + b ) )（默认 a=1, b=0，可在清单中调整）。
总分聚合：Q = ( ∑_i w_i q_{m_i} ) / ( ∑_i w_i )，权重 w_i 在 bench_plan.yaml 固定并公开。
稳定性校验：总分与主指标区间须一致趋势；若出现反向，进入偏倚复核与再评测。

VII. 门阈映射与判定（Gates & Decisions）

与《误差预算卡》阈值对齐：
- |ΔT_arr| + U(T_arr) ≤ τ_T；
- LB(r_phi) ≥ r_phi_min；
- P95(ε_flux) ≤ ε_flux_guard；
- p_dim = 1.0、Σ PD。
发布判定：核心门通过且 Q ≥ Q_base + δQ_min → Pass；否则 Fail / [Restricted]（仅发布定性图表与诊断）。

VIII. 路径量统一口径（Normative Path Forms）

到达时：
T_arr = ( 1 / c_ref ) * ( ∫ n_eff d ell )；或 T_arr = ( ∫ ( n_eff / c_ref ) d ell )。
相位：
Phi = ( 2π / λ_ref ) * ( ∫ n_eff d ell )。

正文显式 gamma(ell) 与 d ell；数据侧记录 delta_form；所有表达括号化。

IX. 机读配置与清单（Machine-Readable）
A. bench_plan.yaml

version: "1.0.0"

tasks:

- id: "bench-arrival"

split: "test"

metrics: ["DeltaT_arr_s","Q_res","p_dim"]

coverage: { mode: "k", k: 2 }

- id: "bench-phase"

split: "test"

metrics: ["r_phi","epsilon_flux"]

coverage: { mode: "quantile", p: [0.025, 0.975] }

baseline: { id: "base-001", version: "1.2.3" }

weights: { DeltaT_arr_s: 0.35, r_phi: 0.25, epsilon_flux: 0.15, p_dim: 0.15, Q_res: 0.10 }

B. scorecard.json（示例）

{

"version": "1.0.0",

"baseline": { "id": "base-001", "Q": 0.62 },

"method": { "id": "mdl-core", "Q": 0.78 },

"weights": { "DeltaT_arr_s": 0.35, "r_phi": 0.25, "epsilon_flux": 0.15, "p_dim": 0.15, "Q_res": 0.10 },

"metrics": {

"DeltaT_arr_s": { "mean": -2.3e-9, "Uk2": 1.5e-9 },

"r_phi": { "value": 0.72, "lb95": 0.61, "ub95": 0.80 },

"epsilon_flux": { "median": 0.004, "p95": 0.011 },

"p_dim": 1.0,

"Q_res": 0.13

"decision": "pass",

"see": ["EFT.WP.Core.Equations v1.1:S20-1","Error Budget Card v1.0:Ch.8"]

}

C. eval_report.md（提纲）

# Evaluation Report

- Tasks, splits, seeds

- Metrics with intervals & convergence

- Score mapping, weights, final Q

- Gate comparison & decision

X. 反例与修正（Anti-Patterns & Fixes）

反例：仅报均值不报区间 → 修正：补充 U = k·u_c 或分位带与收敛诊断。
反例：T_arr = ∫ n_eff / c_ref d ell（缺括号） → 修正：括号化为统一口径。
反例：评分权重/口径未公示 → 修正：在 bench_plan.yaml/scorecard.json 明示权重与覆盖模式。
反例：时间/实体/路径泄漏 → 修正：按 split.yaml 重切并记录 seed。

XI. 交叉引用（Cross-References）

《数据集卡》：Ch.6（Splits/Versioning）、Ch.11（Bench/Score）。
《误差预算卡》：Ch.8/Ch.9（区间与阈值映射）。
《管线卡》：Ch.12（产出与发布）。
本卷：Ch.6（训练协议），Ch.7（UQ）对区间与阈值保持一致。

XII. 执行勾选清单（Checklist）

bench_plan.yaml / scorecard.json / eval_report.md 已生成并与数据/误差卷口径一致。
覆盖模式统一（k/alpha/quantile），对关键指标同时给点估计与区间并提供收敛诊断。
泄漏防护有效（时间/实体/路径）；split.yaml 与种子记录完备。
与 τ_T / r_phi_min / ε_flux_guard / p_dim 的对照判定已完成；发布判定透明可追溯。
/validate 通过 G1–G8；所有图表双份导出并含单位、see[]/version 与覆盖说明；不合规项标注 [Restricted]。

版权与许可：除另有说明外，《能量丝理论》（含文本、图表、插图、符号与公式）的著作权由作者（屠广林）享有。
许可方式（CC BY 4.0）：在注明作者与来源的前提下，允许复制、转载、节选、改编与再分发。
署名格式（建议）：作者：屠广林｜作品：《能量丝理论》｜来源：energyfilament.org｜许可证：CC BY 4.0
验证召集： 作者独立自费、无雇主无资助；下一阶段将优先在最愿意公开讨论、公开复现、公开挑错的环境中推进落地，不限国家。欢迎各国媒体与同行抓住窗口组织验证，并与我们联系。
版本信息： 首次发布：2025-11-11 ｜当前版本：v6.0+5.05