目录 / 文档-技术白皮书 / 56-报告级方法附录 Template v1.0
I. 章节目标与范围(强制)
- 固定评测协议—指标定义—门禁(gates)—统计方法—观察窗口—通过线的统一口径,确保结果可比较、可回放、可审计。
- 与第5章(数据与实验设计)、第6章(数学与伪代码)、第7章(计量与校准)、第11章(实现绑定)对齐。
II. 协议结构与通用要求(强制)
- 协议最小要素:评测对象、数据切分、指标清单、门禁阈值、统计方法与区间、脚本定位(script@commit)、结果导出与哈希。
- 观察窗口:以 ISO8601 与 UTC 标注;滚动评测需给出步长/重叠。
- 重复性:固定随机种子;跨环境复跑一致(容器镜像与依赖锁定)。
III. 指标定义与方向(强制)
- 指标命名统一:metric_name,方向以箭头标注:↑ 为越大越优、↓ 为越小越优、≈ 为接近目标。
- 常用指标(示例):
- gate_accuracy(↑)——对比高保真基准或解析值;
- gate_latency(↓)——批/流任务端到端时延;
- compat_rate(↑)——回放/现网兼容率;
- error_rate(↓)——错误/异常比例;
- cal_residuals(↓)——校准残差(见第7章)。
- 若涉及到达时判据,同段重述口径:
- 常量外提:T_arr = ( 1 / c_ref ) * ( ∫ n_eff d ell )
- 一般口径:T_arr = ( ∫ ( n_eff / c_ref ) d ell )
并显式给出路径 gamma(ell) 与测度 d ell,check_dim=true。
IV. 门禁(gates)命名与通过线(强制)
- 命名规则:gate_<metric><comparator><threshold>@<window>,如 gate_accuracy>=0.99@7d、gate_latency<=2h@7d、compat_rate>=0.995@replay。
- 分层:**硬门禁(hard)**失败即不通过;**软门禁(soft)**可在签署条款下放行(第8章决策要点与签署)。
- 统计口径:给出方法(如 bootstrap)、CI_95%、样本量与抽样策略;记录原始度量与聚合度量。
V. 评测执行与记录(强制)
- 执行要素:输入版本(数据/模型/配置)、运行参数、随机种子、Δell/ε_int 等数值精度参数、环境哈希。
- 记录与导出:yaml/json/pdf 三种工件;包含原始结果摘要 + 门禁判定 + 置信区间 + 脚本定位 + 工件哈希。
- 对照策略:明确 Option Base,在表格中与候选方案并列给出分项指标与总评。
VI. 基准与对照设计(强制)
- 基准来源:高保真解析解、超细网格计算(更小 Δell)、权威公开基准;注明适用范围与偏差上限。
- 对照维度:性能/成本/时间/风险/依赖/可复现性/兼容性;默认权重与折减口径见第5章与第6章。
VII. 评测清单模板(可直接拷贝)
维度 | 指标 | 方向 | 门禁 | 窗口 | 统计方法/CI | 脚本定位 | 备注 |
|---|---|---|---|---|---|---|---|
性能 | gate_accuracy | ↑ | >=0.99 | @7d | bootstrap/95% | eval.py@a1b2c3 | 基准=解析或细网格 |
时延 | gate_latency | ↓ | <=2h | @7d | 分位数/均值 | runner.py@9f8e7d | 批任务 |
兼容 | compat_rate | ↑ | >=0.995 | @replay | 二项区间/95% | replay.sh@d4e5f6 | 现网回放 |
计量 | cal_residuals | ↓ | <=3σ | @validation | 正态假设 | calib.py@c0ffee | 见第7章 |
错误 | error_rate | ↓ | <=1e-3 | @24h | 泊松/二项 | monitor@abcd12 | 线上监控 |
VIII. 机读结构(YAML;JSON 等价,强制)
evaluation:
window: { start: "2025-09-01T00:00:00Z", end: "2025-09-07T23:59:59Z", timezone: "UTC" }
metrics:
- { name: "gate_accuracy", direction: "↑", desc: "vs. analytic or fine-grid baseline" }
- { name: "gate_latency", direction: "↓", desc: "E2E latency for batch/stream" }
- { name: "compat_rate", direction: "↑", desc: "replay/prod compatibility pass rate" }
- { name: "cal_residuals", direction: "↓", desc: "calibration residuals" }
- { name: "error_rate", direction: "↓", desc: "operational error rate" }
gates:
hard: ["gate_accuracy>=0.99@7d","compat_rate>=0.995@replay","gate_latency<=2h@7d"]
soft: ["unit_cost<=1.0x@30d"]
stats:
method: "bootstrap"
ci: "95%"
samples: 1000
baseline:
name: "Option Base"
reference:
type: "analytic|fine_grid"
script: "fine_grid.py@bead55"
artifacts: ["yaml","json","pdf"]
scripts:
eval: "eval.py@a1b2c3"
runner: "runner.py@9f8e7d"
replay: "replay.sh@d4e5f6"
arrival_time:
caliber:
forms:
- { name: "general", expr: "( ∫ ( n_eff / c_ref ) d ell )" }
- { name: "factored", expr: "( 1 / c_ref ) * ( ∫ n_eff d ell )" }
path: "gamma(ell)"
measure: "d ell"
check_dim: true
IX. 人读 × 机读映射(强制)
人读段落 | 机读字段 | 校核要点 |
|---|---|---|
协议要素 | evaluation.window, evaluation.scripts.* | 时间窗/脚本与环境明确 |
指标与方向 | evaluation.metrics[] | ↑/↓/≈ 一致、描述清楚 |
门禁与阈值 | evaluation.gates.hard/soft | 命名/比较符/窗口统一 |
统计与区间 | evaluation.stats.* | 方法/CI/样本量完备 |
基准与对照 | evaluation.baseline.* | 基准类型与脚本定位 |
到达时口径 | arrival_time.caliber.* | 两口径+路径/测度+check_dim |
X. 校验规则(正则/一致性,强制)
- 门禁表达:^gate_[a-z0-9_]+(>=|<=|==)[^@\\s]+@[^\\s]+$;compat_rate>=0.995@replay 等价接受。
- 时间窗:start ≤ end 且 timezone="UTC"。
- 指标方向:direction ∈ {↑, ↓, ≈}。
- 到达时:若 evaluation 涉及 T_arr,必须存在 arrival_time.caliber.path/measure 与 check_dim=true。
XI. 引用与交叉引用体例(强制)
;所有 EFT.WP.* 引用需显式版本与锚点,并在 references.see[] 提供机读清单。“见《<卷名> vX.Y》Ch.x S/P/M/I…”固定写法:版权与许可(CC BY 4.0)
版权声明:除另有说明外,《能量丝理论》(含文本、图表、插图、符号与公式)的著作权由作者(“屠广林”先生)享有。
许可方式:本作品采用 Creative Commons 署名 4.0 国际许可协议(CC BY 4.0)进行许可;在注明作者与来源的前提下,允许为商业或非商业目的进行复制、转载、节选、改编与再分发。
署名格式(建议):作者:“屠广林”;作品:《能量丝理论》;来源:energyfilament.org;许可证:CC BY 4.0。
首次发布: 2025-11-11|当前版本:v5.1
协议链接:https://creativecommons.org/licenses/by/4.0/