52-数据集卡 Template v1.0 | 第11章可视化、基准与对比评分（Bench/Score） | 能量丝理论

第11章可视化、基准与对比评分（Bench/Score）

I. 目的与范围（Purpose & Scope）

规范数据集可视化、**基准（Benchmark）与对比评分（Comparative Scoring）**的字段、图表与发布口径，保证规模/分布/质量与路径剖面等可视化一致，基准任务可复现，对比评分与门阈映射透明可审计。
涉及路径量（到达时/相位）之可视化与评分，正文显式 gamma(ell) 与测度 d ell，数据侧记录 delta_form ∈ {general, factored}；统一采用括号化口径，发布要求 p_dim = 1.0。

II. 前置条件与输入（Prerequisites & Inputs）

结构与契约：schema.json/contract.yaml（见第4章）一致且通过 I70-dim_check。
Splits/Versioning/Freshness：split.yaml/split_manifest.json（见第6章）就绪；freshness.policy 生效。
质量门状态：/validate 通过 G1–G8（见第7章），必要时对不合规项标注 [Restricted]。
计量与覆盖：与《误差预算卡》一致（cov_group/Σ、coverage ∈ {k, alpha, quantile}）。
引用与版本：所有图表与评分清单使用“卷名 + 版本 + 锚点（P/S/M/I）”，锚点直指率 ≥ 90%。

III. 可视化规范（Visualization Standards）

输出格式：每张图双份导出（矢量 PDF/SVG 与位图 PNG/JPG），DPI ≥ 300；坐标轴显式单位（s, rad, 1, m, m/s, MB/s 等）。
图注要素：see[]/version，数据切分（split）、覆盖口径（k/alpha/quantile）、若为路径图需标注 Δell 与 delta_form。
最小图集：
- 规模与分布：N/M 概览、字段分布直方/核密度、缺失热图。
- 时间与新鲜度：时间线/水位与 clock_state、σ_y(τ)。
- 路径剖面：n_eff(ell) 对 ell，叠加 T_arr/Phi 区间带。
- 质量与不确定度：Q_res 趋势、U = k·u_c 或分位带。
- 基准与评分：各任务指标条形/雷达图、总分 Q 与置信带。

括号强制：含除号/积分/复合算符的表达必须加括号；路径图须在正文显式 gamma(ell) 与 d ell。

IV. 基准（Benchmarks）

任务与数据协议：声明基准任务（分类/回归/时序/路径/多模态）、切分/抽样策略、评测字段与单位/量纲。
可比性：与公开或内部基准的契约与版本对齐；若使用公共任务，列出映射与差异。
统计口径：每项指标同时给出点估计与区间（k/alpha/quantile），报告重复试验或自举的收敛诊断。
防泄漏：时间/实体/路径一致性约束与 split.yaml 对齐，禁止跨 split 共享实体。

V. 对比评分（Comparative Scoring）

主指标（最低集）：ΔT_arr (s)、r_phi (1)、ε_flux (1)、p_dim (1)、Q_res (1)；必要时加入规模/缺失与偏倚指标。
规范化与映射：
- 规范化：z_m = ( m − m_baseline ) / σ_baseline；
- Sigmoid 评分：q_m = 1 / ( 1 + exp( a z_m + b ) )（默认 a=1,b=0，若“越大越好”则翻转方向）。
总分聚合：Q = ( ∑_i w_i q_{m_i} ) / ( ∑_i w_i )；明确权重 w_i 与来源。
判定门槛（与第7/8章及《管线卡》Ch.12 对齐）：
- 阳性：核心门全部通过（如 |ΔT_arr| + U(T_arr) ≤ τ_T、LB(r_phi) ≥ r_phi_min、p_dim = 1.0、P95(ε_flux) ≤ guard）且 Q ≥ Q_base + δQ_min；
- 阴性/限制：不满足时标注 [Restricted] 并仅发布定性图表与诊断说明。

VI. 路径量统一口径（Normative Path Forms）

到达时（两种等价）：
T_arr = ( 1 / c_ref ) * ( ∫ n_eff d ell )
T_arr = ( ∫ ( n_eff / c_ref ) d ell )
相位累计：
Phi = ( 2π / λ_ref ) * ( ∫ n_eff d ell )

数据侧记录 delta_form ∈ {general, factored}；路径数组满足 len(gamma_ell)=len(d_ell)=len(n_eff)≥2。

VII. 机读配置与清单（Machine-Readable Configs）
A. bench_plan.yaml

version: "1.0.0"

tasks:

- id: "bench-arrival"

split: "test"

metrics: ["DeltaT_arr_s","Q_res","p_dim"]

coverage: { mode: "k", k: 2 }

- id: "bench-phase"

split: "test"

metrics: ["r_phi","epsilon_flux"]

coverage: { mode: "quantile", p: [0.025,0.975] }

baseline:

id: "base-001"

version: "1.2.3"

weights: { DeltaT_arr_s: 0.35, r_phi: 0.25, epsilon_flux: 0.15, p_dim: 0.15, Q_res: 0.10 }

B. scorecard.json（示例）

JSON json

{
  "version": "1.0.0",
  "baseline": { "id": "base-001", "Q": 0.62 },
  "method": { "id": "ds-core", "Q": 0.78 },
  "weights": { "DeltaT_arr_s": 0.35, "r_phi": 0.25, "epsilon_flux": 0.15, "p_dim": 0.15, "Q_res": 0.1 },
  "metrics": {
    "DeltaT_arr_s": { "mean": -2.3e-09, "std": 4.8e-09, "U_k2": 1.5e-09 },
    "r_phi": { "value": 0.72, "lb95": 0.61, "ub95": 0.8 },
    "epsilon_flux": { "median": 0.004, "p95": 0.011 },
    "p_dim": 1.0,
    "Q_res": 0.13
  },
  "decision": "pass",
  "see": [ "EFT.WP.Core.Equations v1.1:S20-1", "Data.Benchmarks v1.0:PROTO" ]
}

C. kpi_summary.csv（表头）

split,DeltaT_arr_s_mean,DeltaT_arr_s_Uk2,r_phi_lb95,r_phi_ub95,epsilon_flux_p95,p_dim,Q_res

test,-2.3e-9,1.5e-9,0.61,0.80,0.011,1.0,0.13

VIII. 质量门映射（Gates Mapping）

G1 Schema 完整：可视化与评分表的字段齐备；
G2 引用合规：图注/表注锚点直指率 ≥ 90%；
G3 路径规范：路径图与评分使用的路径数组齐备且步长合规；
G4 量纲闭合：check_dim_report.json 通过；
G6 覆盖口径：与数据侧一致（k/alpha/quantile）；
G7 协方差一致：评分用的假设与误差卷一致，Σ 正定；
G8 唯一性：产出具备 checksum 与签名；版本与清单一致。

IX. 反例与修正（Anti-Patterns & Fixes）

反例：仅报均值无区间 → 修正：补充 U = k·u_c 或分位带并给收敛诊断。
反例：T_arr = ∫ n_eff / c_ref d ell（缺括号） → 修正：括号化为统一口径。
反例：评分权重/口径未公示 → 修正：在 bench_plan.yaml/scorecard.json 明确 w_i 与覆盖模式。
反例：路径图未标 delta_form/Δell → 修正：图注补全并与 n_eff 对齐。

X. 发布与目录结构（Release & Layout）

DS_EXPORT/

figs/

scale_dist.pdf

missing_heatmap.svg

sync_health.pdf

path_profile.pdf

scorecard_bar.pdf

tables/

kpi_summary.csv

scorecard.csv

reports/

check_dim_report.json

validate_report.json

audit.jsonl

manifests/

report_manifest.yaml

SIGNATURE.asc

XI. 交叉引用（Cross-References）

结构与 Schema：见第4章；Splits/Versioning/Freshness：见第6章；质量门：见第7章；不确定度与协方差：见第8章。
《管线卡》：产出与发布（Ch.12）、质量门与监控（Ch.9）。
《误差预算卡》：对比评分口径与阈值映射（Ch.8/Ch.9）。

XII. 执行勾选清单（Checklist）

图表双份导出，轴单位与图注 see[]/version 完整；路径图注明 Δell 与 delta_form。
bench_plan.yaml 与 scorecard.csv/json 一致；权重、区间与门阈对照清晰。
评分与基准使用的数据切分与版本明确；coverage.mode 与数据侧一致。
check_dim_report.json/validate_report.json/audit.jsonl/report_manifest.yaml 与签名齐备。
/validate 通过且无 S1–S5；若限制模式，所有产出均加 [Restricted] 并仅给定性说明。