目录 / 文档-技术白皮书 / 53-模型卡 Template v1.0
I. 目标与范围(Purpose & Scope)
- 规范评测基准(Benchmarks)与对比评分(Comparative Scoring)的任务定义、统计口径、泄漏防护与发布规则,统一指标区间、权重与门阈映射,使评测结果可复现、可审计、可比较。
- 凡涉及路径量(到达时/相位),正文显式路径 gamma(ell) 与测度 d ell,数据侧记录 delta_form ∈ {general, factored};所有表达一律括号化,发布要求 p_dim = 1.0。
II. 前置条件与输入(Prerequisites & Inputs)
- 数据与切分:与《数据集卡》Ch.4/Ch.6/Ch.7/Ch.11 对齐(schema/splits/QC/bench),禁止跨 split 实体/窗口混用。
- 训练协议:与本卷第6章一致(train_config.yaml、随机源与环境快照)。
- 覆盖与协方差:与《误差预算卡》统一(coverage ∈ {k, alpha, quantile}、Σ PD)。
- 引用与版本:一律“卷名 + 版本 + 锚点(P/S/M/I)”,锚点直指率 ≥ 90%;对外仅 v1.*。
III. 基准任务与可比性(Bench Tasks & Comparability)
- 任务定义:分类/回归/时序/路径/多模态;对每任务给出输入/输出字段、单位/量纲与评测窗口。
- 契约对齐:若对照公共基准,列出字段映射与差异(见 bench_plan.yaml);内部基准需给定固定切分与种子。
- 重复与收敛:每项指标同时汇报点估计与区间(k/alpha/quantile),并提供重复试验或自举收敛诊断。
IV. 泄漏防护与一致性(Leakage Prevention & Consistency)
- 时间泄漏:TS → {train < val < test} 单调切分;严禁跨窗特征派生。
- 实体泄漏:group_by(entity);确保实体不跨 split。
- 路径一致:len(gamma_ell)=len(d_ell)=len(n_eff)≥2,Δell ≤ ( c_ref / f_s ) / max(n_eff);相位在参考窗对齐后计算 r_phi。
V. 指标与区间(Metrics & Intervals)
- 主指标(示例):AUC、ACC、MAE、RMSE、r_phi、ε_flux、Q_res、Latency_P95/Throughput(若含性能约束)。
- 区间规则:
- k 覆盖:U = k·u_c;
- alpha:t_{ν,1−α/2} 或正态近似;
- quantile:如 [0.025, 0.975];全卷任选其一并保持一致。
VI. 对比评分映射(Scoring Mapping)
- 规范化:z_m = ( m − m_baseline ) / σ_baseline(若“越大越好”则方向翻转)。
- Sigmoid 记分:q_m = 1 / ( 1 + exp( a z_m + b ) )(默认 a=1, b=0,可在清单中调整)。
- 总分聚合:Q = ( ∑_i w_i q_{m_i} ) / ( ∑_i w_i ),权重 w_i 在 bench_plan.yaml 固定并公开。
- 稳定性校验:总分与主指标区间须一致趋势;若出现反向,进入偏倚复核与再评测。
VII. 门阈映射与判定(Gates & Decisions)
- 与《误差预算卡》阈值对齐:
- |ΔT_arr| + U(T_arr) ≤ τ_T;
- LB(r_phi) ≥ r_phi_min;
- P95(ε_flux) ≤ ε_flux_guard;
- p_dim = 1.0、Σ PD。
- 发布判定:核心门通过且 Q ≥ Q_base + δQ_min → Pass;否则 Fail / [Restricted](仅发布定性图表与诊断)。
VIII. 路径量统一口径(Normative Path Forms)
- 到达时:
T_arr = ( 1 / c_ref ) * ( ∫ n_eff d ell );或 T_arr = ( ∫ ( n_eff / c_ref ) d ell )。 - 相位:
Phi = ( 2π / λ_ref ) * ( ∫ n_eff d ell )。
正文显式 gamma(ell) 与 d ell;数据侧记录 delta_form;所有表达括号化。
IX. 机读配置与清单(Machine-Readable)
A. bench_plan.yaml
version: "1.0.0"
tasks:
- id: "bench-arrival"
split: "test"
metrics: ["DeltaT_arr_s","Q_res","p_dim"]
coverage: { mode: "k", k: 2 }
- id: "bench-phase"
split: "test"
metrics: ["r_phi","epsilon_flux"]
coverage: { mode: "quantile", p: [0.025, 0.975] }
baseline: { id: "base-001", version: "1.2.3" }
weights: { DeltaT_arr_s: 0.35, r_phi: 0.25, epsilon_flux: 0.15, p_dim: 0.15, Q_res: 0.10 }
B. scorecard.json(示例)
{
"version": "1.0.0",
"baseline": { "id": "base-001", "Q": 0.62 },
"method": { "id": "mdl-core", "Q": 0.78 },
"weights": { "DeltaT_arr_s": 0.35, "r_phi": 0.25, "epsilon_flux": 0.15, "p_dim": 0.15, "Q_res": 0.10 },
"metrics": {
"DeltaT_arr_s": { "mean": -2.3e-9, "Uk2": 1.5e-9 },
"r_phi": { "value": 0.72, "lb95": 0.61, "ub95": 0.80 },
"epsilon_flux": { "median": 0.004, "p95": 0.011 },
"p_dim": 1.0,
"Q_res": 0.13
},
"decision": "pass",
"see": ["EFT.WP.Core.Equations v1.1:S20-1","Error Budget Card v1.0:Ch.8"]
}
C. eval_report.md(提纲)
# Evaluation Report
- Tasks, splits, seeds
- Metrics with intervals & convergence
- Score mapping, weights, final Q
- Gate comparison & decision
X. 反例与修正(Anti-Patterns & Fixes)
- 反例:仅报均值不报区间 → 修正:补充 U = k·u_c 或分位带与收敛诊断。
- 反例:T_arr = ∫ n_eff / c_ref d ell(缺括号) → 修正:括号化为统一口径。
- 反例:评分权重/口径未公示 → 修正:在 bench_plan.yaml/scorecard.json 明示权重与覆盖模式。
- 反例:时间/实体/路径泄漏 → 修正:按 split.yaml 重切并记录 seed。
XI. 交叉引用(Cross-References)
- 《数据集卡》:Ch.6(Splits/Versioning)、Ch.11(Bench/Score)。
- 《误差预算卡》:Ch.8/Ch.9(区间与阈值映射)。
- 《管线卡》:Ch.12(产出与发布)。
- 本卷:Ch.6(训练协议),Ch.7(UQ)对区间与阈值保持一致。
XII. 执行勾选清单(Checklist)
- bench_plan.yaml / scorecard.json / eval_report.md 已生成并与数据/误差卷口径一致。
- 覆盖模式统一(k/alpha/quantile),对关键指标同时给点估计与区间并提供收敛诊断。
- 泄漏防护有效(时间/实体/路径);split.yaml 与种子记录完备。
- 与 τ_T / r_phi_min / ε_flux_guard / p_dim 的对照判定已完成;发布判定透明可追溯。
- /validate 通过 G1–G8;所有图表双份导出并含单位、see[]/version 与覆盖说明;不合规项标注 [Restricted]。
版权与许可(CC BY 4.0)
版权声明:除另有说明外,《能量丝理论》(含文本、图表、插图、符号与公式)的著作权由作者(“屠广林”先生)享有。
许可方式:本作品采用 Creative Commons 署名 4.0 国际许可协议(CC BY 4.0)进行许可;在注明作者与来源的前提下,允许为商业或非商业目的进行复制、转载、节选、改编与再分发。
署名格式(建议):作者:“屠广林”;作品:《能量丝理论》;来源:energyfilament.org;许可证:CC BY 4.0。
首次发布: 2025-11-11|当前版本:v5.1
协议链接:https://creativecommons.org/licenses/by/4.0/