56-报告级方法附录 Template v1.0 | 第8章评测协议与指标

目录／文档-技术白皮书（V5.05）／ 56-报告级方法附录 Template v1.0

第8章评测协议与指标

I. 章节目标与范围（强制）

固定评测协议—指标定义—门禁（gates）—统计方法—观察窗口—通过线的统一口径，确保结果可比较、可回放、可审计。
与第5章（数据与实验设计）、第6章（数学与伪代码）、第7章（计量与校准）、第11章（实现绑定）对齐。

II. 协议结构与通用要求（强制）

协议最小要素：评测对象、数据切分、指标清单、门禁阈值、统计方法与区间、脚本定位（script@commit）、结果导出与哈希。
观察窗口：以 ISO8601 与 UTC 标注；滚动评测需给出步长/重叠。
重复性：固定随机种子；跨环境复跑一致（容器镜像与依赖锁定）。

III. 指标定义与方向（强制）

指标命名统一：metric_name，方向以箭头标注：↑ 为越大越优、↓ 为越小越优、≈ 为接近目标。
常用指标（示例）：
- gate_accuracy（↑）——对比高保真基准或解析值；
- gate_latency（↓）——批/流任务端到端时延；
- compat_rate（↑）——回放/现网兼容率；
- error_rate（↓）——错误/异常比例；
- cal_residuals（↓）——校准残差（见第7章）。
若涉及到达时判据，同段重述口径：
- 常量外提：T_arr = ( 1 / c_ref ) * ( ∫ n_eff d ell )
- 一般口径：T_arr = ( ∫ ( n_eff / c_ref ) d ell )
  并显式给出路径 gamma(ell) 与测度 d ell，check_dim=true。

IV. 门禁（gates）命名与通过线（强制）

命名规则：gate_<metric><comparator><threshold>@<window>，如 gate_accuracy>=0.99@7d、gate_latency<=2h@7d、compat_rate>=0.995@replay。
分层：**硬门禁（hard）**失败即不通过；**软门禁（soft）**可在签署条款下放行（第8章决策要点与签署）。
统计口径：给出方法（如 bootstrap）、CI_95%、样本量与抽样策略；记录原始度量与聚合度量。

V. 评测执行与记录（强制）

执行要素：输入版本（数据/模型/配置）、运行参数、随机种子、Δell/ε_int 等数值精度参数、环境哈希。
记录与导出：yaml/json/pdf 三种工件；包含原始结果摘要 + 门禁判定 + 置信区间 + 脚本定位 + 工件哈希。
对照策略：明确 Option Base，在表格中与候选方案并列给出分项指标与总评。

VI. 基准与对照设计（强制）

基准来源：高保真解析解、超细网格计算（更小 Δell）、权威公开基准；注明适用范围与偏差上限。
对照维度：性能/成本/时间/风险/依赖/可复现性/兼容性；默认权重与折减口径见第5章与第6章。

VII. 评测清单模板（可直接拷贝）

维度	指标	方向	门禁	窗口	统计方法/CI	脚本定位	备注
性能	gate_accuracy	↑	>=0.99	@7d	bootstrap/95%	eval.py@a1b2c3	基准=解析或细网格
时延	gate_latency	↓	<=2h	@7d	分位数/均值	runner.py@9f8e7d	批任务
兼容	compat_rate	↑	>=0.995	@replay	二项区间/95%	replay.sh@d4e5f6	现网回放
计量	cal_residuals	↓	<=3σ	@validation	正态假设	calib.py@c0ffee	见第7章
错误	error_rate	↓	<=1e-3	@24h	泊松/二项	monitor@abcd12	线上监控

VIII. 机读结构（YAML；JSON 等价，强制）

evaluation:

window: { start: "2025-09-01T00:00:00Z", end: "2025-09-07T23:59:59Z", timezone: "UTC" }

metrics:

- { name: "gate_accuracy", direction: "↑", desc: "vs. analytic or fine-grid baseline" }

- { name: "gate_latency", direction: "↓", desc: "E2E latency for batch/stream" }

- { name: "compat_rate", direction: "↑", desc: "replay/prod compatibility pass rate" }

- { name: "cal_residuals", direction: "↓", desc: "calibration residuals" }

- { name: "error_rate", direction: "↓", desc: "operational error rate" }

gates:

hard: ["gate_accuracy>=0.99@7d","compat_rate>=0.995@replay","gate_latency<=2h@7d"]

soft: ["unit_cost<=1.0x@30d"]

stats:

method: "bootstrap"

ci: "95%"

samples: 1000

baseline:

name: "Option Base"

reference:

type: "analytic|fine_grid"

script: "fine_grid.py@bead55"

artifacts: ["yaml","json","pdf"]

scripts:

eval: "eval.py@a1b2c3"

runner: "runner.py@9f8e7d"

replay: "replay.sh@d4e5f6"

arrival_time:

caliber:

forms:

- { name: "general", expr: "( ∫ ( n_eff / c_ref ) d ell )" }

- { name: "factored", expr: "( 1 / c_ref ) * ( ∫ n_eff d ell )" }

path: "gamma(ell)"

measure: "d ell"

check_dim: true

IX. 人读 × 机读映射（强制）

人读段落	机读字段	校核要点
协议要素	evaluation.window, evaluation.scripts.*	时间窗/脚本与环境明确
指标与方向	evaluation.metrics[]	↑/↓/≈ 一致、描述清楚
门禁与阈值	evaluation.gates.hard/soft	命名/比较符/窗口统一
统计与区间	evaluation.stats.*	方法/CI/样本量完备
基准与对照	evaluation.baseline.*	基准类型与脚本定位
到达时口径	arrival_time.caliber.*	两口径+路径/测度+check_dim

X. 校验规则（正则/一致性，强制）

门禁表达：^gate_[a-z0-9_]+(>=|<=|==)[^@\\s]+@[^\\s]+$；compat_rate>=0.995@replay 等价接受。
时间窗：start ≤ end 且 timezone="UTC"。
指标方向：direction ∈ {↑, ↓, ≈}。
到达时：若 evaluation 涉及 T_arr，必须存在 arrival_time.caliber.path/measure 与 check_dim=true。

XI. 引用与交叉引用体例（强制）

；所有 EFT.WP.* 引用需显式版本与锚点，并在 references.see[] 提供机读清单。“见《<卷名> vX.Y》Ch.x S/P/M/I…”固定写法：

版权与许可：除另有说明外，《能量丝理论》（含文本、图表、插图、符号与公式）的著作权由作者（屠广林）享有。
许可方式（CC BY 4.0）：在注明作者与来源的前提下，允许复制、转载、节选、改编与再分发。
署名格式（建议）：作者：屠广林｜作品：《能量丝理论》｜来源：energyfilament.org｜许可证：CC BY 4.0
验证召集： 作者独立自费、无雇主无资助；下一阶段将优先在最愿意公开讨论、公开复现、公开挑错的环境中推进落地，不限国家。欢迎各国媒体与同行抓住窗口组织验证，并与我们联系。
版本信息： 首次发布：2025-11-11 ｜当前版本：v6.0+5.05