目录文档-技术白皮书56-报告级方法附录 Template v1.0

第8章 评测协议与指标


I. 章节目标与范围(强制)


II. 协议结构与通用要求(强制)


III. 指标定义与方向(强制)

  1. 指标命名统一:metric_name,方向以箭头标注:↑ 为越大越优、↓ 为越小越优、≈ 为接近目标。
  2. 常用指标(示例):
    • gate_accuracy(↑)——对比高保真基准或解析值;
    • gate_latency(↓)——批/流任务端到端时延;
    • compat_rate(↑)——回放/现网兼容率;
    • error_rate(↓)——错误/异常比例;
    • cal_residuals(↓)——校准残差(见第7章)。
  3. 若涉及到达时判据,同段重述口径:
    • 常量外提:T_arr = ( 1 / c_ref ) * ( ∫ n_eff d ell )
    • 一般口径:T_arr = ( ∫ ( n_eff / c_ref ) d ell )
      并显式给出路径 gamma(ell) 与测度 d ell,check_dim=true。

IV. 门禁(gates)命名与通过线(强制)


V. 评测执行与记录(强制)


VI. 基准与对照设计(强制)


VII. 评测清单模板(可直接拷贝)

维度

指标

方向

门禁

窗口

统计方法/CI

脚本定位

备注

性能

gate_accuracy

>=0.99

@7d

bootstrap/95%

eval.py@a1b2c3

基准=解析或细网格

时延

gate_latency

<=2h

@7d

分位数/均值

runner.py@9f8e7d

批任务

兼容

compat_rate

>=0.995

@replay

二项区间/95%

replay.sh@d4e5f6

现网回放

计量

cal_residuals

<=3σ

@validation

正态假设

calib.py@c0ffee

见第7章

错误

error_rate

<=1e-3

@24h

泊松/二项

monitor@abcd12

线上监控


VIII. 机读结构(YAML;JSON 等价,强制)

evaluation:

window: { start: "2025-09-01T00:00:00Z", end: "2025-09-07T23:59:59Z", timezone: "UTC" }

metrics:

- { name: "gate_accuracy", direction: "↑", desc: "vs. analytic or fine-grid baseline" }

- { name: "gate_latency", direction: "↓", desc: "E2E latency for batch/stream" }

- { name: "compat_rate", direction: "↑", desc: "replay/prod compatibility pass rate" }

- { name: "cal_residuals", direction: "↓", desc: "calibration residuals" }

- { name: "error_rate", direction: "↓", desc: "operational error rate" }

gates:

hard: ["gate_accuracy>=0.99@7d","compat_rate>=0.995@replay","gate_latency<=2h@7d"]

soft: ["unit_cost<=1.0x@30d"]

stats:

method: "bootstrap"

ci: "95%"

samples: 1000

baseline:

name: "Option Base"

reference:

type: "analytic|fine_grid"

script: "fine_grid.py@bead55"

artifacts: ["yaml","json","pdf"]

scripts:

eval: "eval.py@a1b2c3"

runner: "runner.py@9f8e7d"

replay: "replay.sh@d4e5f6"

arrival_time:

caliber:

forms:

- { name: "general", expr: "( ∫ ( n_eff / c_ref ) d ell )" }

- { name: "factored", expr: "( 1 / c_ref ) * ( ∫ n_eff d ell )" }

path: "gamma(ell)"

measure: "d ell"

check_dim: true


IX. 人读 × 机读映射(强制)

人读段落

机读字段

校核要点

协议要素

evaluation.window, evaluation.scripts.*

时间窗/脚本与环境明确

指标与方向

evaluation.metrics[]

↑/↓/≈ 一致、描述清楚

门禁与阈值

evaluation.gates.hard/soft

命名/比较符/窗口统一

统计与区间

evaluation.stats.*

方法/CI/样本量完备

基准与对照

evaluation.baseline.*

基准类型与脚本定位

到达时口径

arrival_time.caliber.*

两口径+路径/测度+check_dim


X. 校验规则(正则/一致性,强制)


XI. 引用与交叉引用体例(强制)

;所有 EFT.WP.* 引用需显式版本与锚点,并在 references.see[] 提供机读清单。“见《<卷名> vX.Y》Ch.x S/P/M/I…”固定写法:

版权与许可(CC BY 4.0)

版权声明:除另有说明外,《能量丝理论》(含文本、图表、插图、符号与公式)的著作权由作者(“屠广林”先生)享有。
许可方式:本作品采用 Creative Commons 署名 4.0 国际许可协议(CC BY 4.0)进行许可;在注明作者与来源的前提下,允许为商业或非商业目的进行复制、转载、节选、改编与再分发。
署名格式(建议):作者:“屠广林”;作品:《能量丝理论》;来源:energyfilament.org;许可证:CC BY 4.0。

首次发布: 2025-11-11|当前版本:v5.1
协议链接:https://creativecommons.org/licenses/by/4.0/