目录 / 文档-技术白皮书 / 52-数据集卡 Template v1.0
I. 目的与范围(Purpose & Scope)
- 规范数据集可视化、**基准(Benchmark)与对比评分(Comparative Scoring)**的字段、图表与发布口径,保证规模/分布/质量与路径剖面等可视化一致,基准任务可复现,对比评分与门阈映射透明可审计。
- 涉及路径量(到达时/相位)之可视化与评分,正文显式 gamma(ell) 与测度 d ell,数据侧记录 delta_form ∈ {general, factored};统一采用括号化口径,发布要求 p_dim = 1.0。
II. 前置条件与输入(Prerequisites & Inputs)
- 结构与契约:schema.json/contract.yaml(见第4章)一致且通过 I70-dim_check。
- Splits/Versioning/Freshness:split.yaml/split_manifest.json(见第6章)就绪;freshness.policy 生效。
- 质量门状态:/validate 通过 G1–G8(见第7章),必要时对不合规项标注 [Restricted]。
- 计量与覆盖:与《误差预算卡》一致(cov_group/Σ、coverage ∈ {k, alpha, quantile})。
- 引用与版本:所有图表与评分清单使用“卷名 + 版本 + 锚点(P/S/M/I)”,锚点直指率 ≥ 90%。
III. 可视化规范(Visualization Standards)
- 输出格式:每张图双份导出(矢量 PDF/SVG 与位图 PNG/JPG),DPI ≥ 300;坐标轴显式单位(s, rad, 1, m, m/s, MB/s 等)。
- 图注要素:see[]/version,数据切分(split)、覆盖口径(k/alpha/quantile)、若为路径图需标注 Δell 与 delta_form。
- 最小图集:
- 规模与分布:N/M 概览、字段分布直方/核密度、缺失热图。
- 时间与新鲜度:时间线/水位与 clock_state、σ_y(τ)。
- 路径剖面:n_eff(ell) 对 ell,叠加 T_arr/Phi 区间带。
- 质量与不确定度:Q_res 趋势、U = k·u_c 或分位带。
- 基准与评分:各任务指标条形/雷达图、总分 Q 与置信带。
括号强制:含除号/积分/复合算符的表达必须加括号;路径图须在正文显式 gamma(ell) 与 d ell。
IV. 基准(Benchmarks)
- 任务与数据协议:声明基准任务(分类/回归/时序/路径/多模态)、切分/抽样策略、评测字段与单位/量纲。
- 可比性:与公开或内部基准的契约与版本对齐;若使用公共任务,列出映射与差异。
- 统计口径:每项指标同时给出点估计与区间(k/alpha/quantile),报告重复试验或自举的收敛诊断。
- 防泄漏:时间/实体/路径一致性约束与 split.yaml 对齐,禁止跨 split 共享实体。
V. 对比评分(Comparative Scoring)
- 主指标(最低集):ΔT_arr (s)、r_phi (1)、ε_flux (1)、p_dim (1)、Q_res (1);必要时加入规模/缺失与偏倚指标。
- 规范化与映射:
- 规范化:z_m = ( m − m_baseline ) / σ_baseline;
- Sigmoid 评分:q_m = 1 / ( 1 + exp( a z_m + b ) )(默认 a=1,b=0,若“越大越好”则翻转方向)。
- 总分聚合:Q = ( ∑_i w_i q_{m_i} ) / ( ∑_i w_i );明确权重 w_i 与来源。
- 判定门槛(与第7/8章及《管线卡》Ch.12 对齐):
- 阳性:核心门全部通过(如 |ΔT_arr| + U(T_arr) ≤ τ_T、LB(r_phi) ≥ r_phi_min、p_dim = 1.0、P95(ε_flux) ≤ guard)且 Q ≥ Q_base + δQ_min;
- 阴性/限制:不满足时标注 [Restricted] 并仅发布定性图表与诊断说明。
VI. 路径量统一口径(Normative Path Forms)
- 到达时(两种等价):
T_arr = ( 1 / c_ref ) * ( ∫ n_eff d ell )
T_arr = ( ∫ ( n_eff / c_ref ) d ell ) - 相位累计:
Phi = ( 2π / λ_ref ) * ( ∫ n_eff d ell )
数据侧记录 delta_form ∈ {general, factored};路径数组满足 len(gamma_ell)=len(d_ell)=len(n_eff)≥2。
VII. 机读配置与清单(Machine-Readable Configs)
A. bench_plan.yaml
version: "1.0.0"
tasks:
- id: "bench-arrival"
split: "test"
metrics: ["DeltaT_arr_s","Q_res","p_dim"]
coverage: { mode: "k", k: 2 }
- id: "bench-phase"
split: "test"
metrics: ["r_phi","epsilon_flux"]
coverage: { mode: "quantile", p: [0.025,0.975] }
baseline:
id: "base-001"
version: "1.2.3"
weights: { DeltaT_arr_s: 0.35, r_phi: 0.25, epsilon_flux: 0.15, p_dim: 0.15, Q_res: 0.10 }
B. scorecard.json(示例)
{
"version": "1.0.0",
"baseline": { "id": "base-001", "Q": 0.62 },
"method": { "id": "ds-core", "Q": 0.78 },
"weights": { "DeltaT_arr_s": 0.35, "r_phi": 0.25, "epsilon_flux": 0.15, "p_dim": 0.15, "Q_res": 0.10 },
"metrics": {
"DeltaT_arr_s": { "mean": -2.3e-9, "std": 4.8e-9, "U_k2": 1.5e-9 },
"r_phi": { "value": 0.72, "lb95": 0.61, "ub95": 0.80 },
"epsilon_flux": { "median": 0.004, "p95": 0.011 },
"p_dim": 1.0,
"Q_res": 0.13
},
"decision": "pass",
"see": ["EFT.WP.Core.Equations v1.1:S20-1","Data.Benchmarks v1.0:PROTO"]
}
C. kpi_summary.csv(表头)
split,DeltaT_arr_s_mean,DeltaT_arr_s_Uk2,r_phi_lb95,r_phi_ub95,epsilon_flux_p95,p_dim,Q_res
test,-2.3e-9,1.5e-9,0.61,0.80,0.011,1.0,0.13
VIII. 质量门映射(Gates Mapping)
- G1 Schema 完整:可视化与评分表的字段齐备;
- G2 引用合规:图注/表注锚点直指率 ≥ 90%;
- G3 路径规范:路径图与评分使用的路径数组齐备且步长合规;
- G4 量纲闭合:check_dim_report.json 通过;
- G6 覆盖口径:与数据侧一致(k/alpha/quantile);
- G7 协方差一致:评分用的假设与误差卷一致,Σ 正定;
- G8 唯一性:产出具备 checksum 与签名;版本与清单一致。
IX. 反例与修正(Anti-Patterns & Fixes)
- 反例:仅报均值无区间 → 修正:补充 U = k·u_c 或分位带并给收敛诊断。
- 反例:T_arr = ∫ n_eff / c_ref d ell(缺括号) → 修正:括号化为统一口径。
- 反例:评分权重/口径未公示 → 修正:在 bench_plan.yaml/scorecard.json 明确 w_i 与覆盖模式。
- 反例:路径图未标 delta_form/Δell → 修正:图注补全并与 n_eff 对齐。
X. 发布与目录结构(Release & Layout)
DS_EXPORT/
figs/
scale_dist.pdf
missing_heatmap.svg
sync_health.pdf
path_profile.pdf
scorecard_bar.pdf
tables/
kpi_summary.csv
scorecard.csv
reports/
check_dim_report.json
validate_report.json
audit.jsonl
manifests/
report_manifest.yaml
SIGNATURE.asc
XI. 交叉引用(Cross-References)
- 结构与 Schema:见第4章;Splits/Versioning/Freshness:见第6章;质量门:见第7章;不确定度与协方差:见第8章。
- 《管线卡》:产出与发布(Ch.12)、质量门与监控(Ch.9)。
- 《误差预算卡》:对比评分口径与阈值映射(Ch.8/Ch.9)。
XII. 执行勾选清单(Checklist)
- 图表双份导出,轴单位与图注 see[]/version 完整;路径图注明 Δell 与 delta_form。
- bench_plan.yaml 与 scorecard.csv/json 一致;权重、区间与门阈对照清晰。
- 评分与基准使用的数据切分与版本明确;coverage.mode 与数据侧一致。
- check_dim_report.json/validate_report.json/audit.jsonl/report_manifest.yaml 与签名齐备。
- /validate 通过且无 S1–S5;若限制模式,所有产出均加 [Restricted] 并仅给定性说明。
版权与许可(CC BY 4.0)
版权声明:除另有说明外,《能量丝理论》(含文本、图表、插图、符号与公式)的著作权由作者(“屠广林”先生)享有。
许可方式:本作品采用 Creative Commons 署名 4.0 国际许可协议(CC BY 4.0)进行许可;在注明作者与来源的前提下,允许为商业或非商业目的进行复制、转载、节选、改编与再分发。
署名格式(建议):作者:“屠广林”;作品:《能量丝理论》;来源:energyfilament.org;许可证:CC BY 4.0。
首次发布: 2025-11-11|当前版本:v5.1
协议链接:https://creativecommons.org/licenses/by/4.0/