目录 / 文档-技术白皮书 / 46-EFT.WP.Data.Benchmarks v1.0
I. 章节定位与覆盖
- 定位:定义本卷采用的通用术语来源、增量术语表、统一符号与量纲基线;固定跨卷依赖与锚点写法,覆盖 suite/task/subtask/track/submission/artifact/frozen_splits/protocol/aggregation/significance/leaderboard 等基准专用概念。
- 覆盖:命名风格与保留键、计量与单位口径、跨卷依赖映射、引用与锚点规范、路径量(如 T_arr)口径、机器可读依赖与导出清单。
II. 术语来源与版本锁定
- 通用术语:遵循《EFT 技术白皮书与技术备忘模板 全面清单 v0.1》,本卷仅对基准相关术语做增量定义。
- 固定依赖集(最小):EFT.WP.Core.DataSpec v1.0、EFT.WP.Core.Metrology v1.0、EFT.WP.Core.Equations v1.1、EFT.WP.Data.DatasetCards v1.0、EFT.WP.Data.ModelCards v1.0、EFT.WP.Data.Pipeline v1.0。若需更高版本,须在 export_manifest.references[] 显式声明。
- 条文级引用:跨卷引用必须包含“卷名 vX.Y:章节/锚点”,优先指向 P/S/M/I 锚点;禁止整卷泛引与别名。
III. 统一符号与记号(基准增量)
- 结构与切分:N(样本数)、D(维度)、S_train/S_val/S_test(冻结切分)、k_fold、seed。
- 指标:Acc、F1_macro/F1_micro、ROC_AUC/PR_AUC、RMSE/MAE、mAP/mAR、ECE、NLL、WER/CER、BLEU/ROUGE。
- 聚合与归一化:score_raw、score_norm、macro/micro/weighted、w_i(权重)、rank、tie_break。
- 统计:μ、σ、Δ(效果量)、CI_95、p、B(bootstrap 次数)。
- 资源与时延:QPS、T_inf(ms)、ρ、net_mbps、size_bytes、power_w。
- 数学与符号规则:内联符号一律用反引号;凡含除号/积分/复合算符必须加括号并声明路径 gamma(ell) 与测度 d ell;公式/符号/定义禁用中文。
IV. 字段命名风格与保留键
- 命名风格:键名统一 snake_case;数组用 [] 表示复数字段。
- 保留键(不可重定义):
- 套件:suite.id/title/version/modalities/risks;
- 任务:tasks[].id/io_mode/tracks/dataset_ref/sampling/splits/leakage_guard/protocol/metrics/aggregation/significance;
- 环境:env.hardware/os/containers/deps_lock;
- 基线:baselines[].id/impl/params;
- 导出:export_manifest.version/artifacts/references。
V. 跨卷依赖映射(最小依赖集)
- 数据契约/导出:EFT.WP.Core.DataSpec v1.0(文件组织、发布、export_manifest)。
- 计量/单位/误差:EFT.WP.Core.Metrology v1.0(units="SI", check_dim=true;不确定度合成口径)。
- 方程/路径量:EFT.WP.Core.Equations v1.1(Ch.2 S20-* 到达时 T_arr 等路径依赖表达)。
- 数据事实与切分:EFT.WP.Data.DatasetCards v1.0(来源/采样/冻结切分/质量门)。
- 评测协议与 I/O 假设:EFT.WP.Data.ModelCards v1.0(Ch.6/Ch.11)。
- 运行与资源:EFT.WP.Data.Pipeline v1.0(编排/调度/性能与成本)。
VI. 引用与锚点规范
- 固定写法:见《<卷名> vX.Y》Ch.<章> <锚点>;锚点类型:Pxx-?(公设)、Sxx-?(最小方程)、Mx-?(计量流程)、Ixx-?(实现绑定)。
- 机器可读引用:对象 see[] 与导出清单 references[] 使用 "卷名 vX.Y:锚点";禁止短码、别名或缺版本引用。
- 示例:"EFT.WP.Core.DataSpec v1.0:EXPORT"、"EFT.WP.Core.Metrology v1.0:check_dim"、"EFT.WP.Core.Equations v1.1:S20-1"。
VII. 到达时 T_arr 的依赖口径(如适用)
- 两种等价表达:
- T_arr = ( 1 / c_ref ) * ( ∫ n_eff d ell )
- T_arr = ( ∫ ( n_eff / c_ref ) d ell )
- 登记要求:若基准套件包含 T_arr 相关任务/特征/指标,必须在对象定义中登记 delta_form、path="gamma(ell)"、measure="d ell",并通过 check_dim。
VIII. 机器可读依赖与导出清单
- see[] 示例:
- see:
- - "EFT.WP.Core.DataSpec v1.0:EXPORT"
- - "EFT.WP.Core.Metrology v1.0:check_dim"
- - "EFT.WP.Core.Equations v1.1:S20-1"
- 导出清单 export_manifest 片段:
- export_manifest:
- version: "v1.0"
- references:
- - "EFT.WP.Core.DataSpec v1.0:EXPORT"
- - "EFT.WP.Core.Metrology v1.0:check_dim"
- - "EFT.WP.Data.DatasetCards v1.0:Ch.11"
- - "EFT.WP.Data.ModelCards v1.0:Ch.11"
- artifacts:
- - {path:"benchmark.yaml", sha256:"..."}
- - {path:"splits/train.index", sha256:"..."}
- - {path:"reports/summary.json", sha256:"..."}
IX. 计量基线与单位
- 强制:metrology:{units:"SI", check_dim:true};所有指标/资源/性能量以 SI 表达,复合量合成前先做单位归一。
- 常用单位:QPS(1/s)、T_inf(ms)、ρ(—)、size_bytes、net_mbps、指标单位 —(无量纲)或显式 SI。
X. 本章合规自检
- 跨卷引用均带“卷名 vX.Y:章/锚点”,优先 P/S/M/I 条目。
- 命名采用 snake_case,保留键未被重定义;suite/tasks/env/baselines/export_manifest 结构齐备。
- 计量基线为 units="SI" 与 check_dim=true;性能/资源单位明确且一致。
- 如涉路径量 T_arr,已登记 delta_form/path/measure 并通过 check_dim。
- see[] 与 export_manifest.references[] 使用固定格式;无短码/别名/缺版本引用。
版权与许可(CC BY 4.0)
版权声明:除另有说明外,《能量丝理论》(含文本、图表、插图、符号与公式)的著作权由作者(“屠广林”先生)享有。
许可方式:本作品采用 Creative Commons 署名 4.0 国际许可协议(CC BY 4.0)进行许可;在注明作者与来源的前提下,允许为商业或非商业目的进行复制、转载、节选、改编与再分发。
署名格式(建议):作者:“屠广林”;作品:《能量丝理论》;来源:energyfilament.org;许可证:CC BY 4.0。
首次发布: 2025-11-11|当前版本:v5.1
协议链接:https://creativecommons.org/licenses/by/4.0/