目录文档-技术白皮书34-EFT.WP.Astro.Acceleration v1.0

第14章 数据、管线与基准


I. 摘要与范围
本章定义数据、管线与基准的统一规范与发布流程 I75-* / M75-*:数据卡/模型卡/管线卡的模式与注册表,数据校验与量纲一致性,管线执行与可复现环境,基准套件与验收门限,对外发布的可复现包与审计轨。所有符号用英文记号并用反引号包裹;单位采用 SI;任一 ToA 相关量并行记录两种口径,显式路径 gamma(ell) 与测度 d ell。

II. 依赖与引用

  1. 统一符号与单位:第2章表 2-1 与 P12-*。
  2. 运动学与通道:第3章 S20-;重联/剪切:第4章 S30-、第5章 S40-;对照:第6章 S45-。
  3. 谱形成与传输:第7章 S50-、第8章 S52-。
  4. 专用分支:GRB(第10章 M62-)、FRB(第11章 M64-)。
  5. 仿真与基准栈:第12章 M70-*(产物与指标)。
  6. 推断与证伪:第13章 M72-*(证据、掩码与交付字段)。

III. 规范锚点(本章新增,I75-/M75-)

  1. I75-0(卡片模式与注册表):建立三类卡片的 JSON Schema:DatasetCard、ModelCard、PipelineCard;统一必填字段、Unit/Dim、see: 锚点、hash(code_hash/data_hash)与版本字段。
  2. I75-1(DataSpec 与字段约束):任何数值列必须携带 unit 与 dim;ToA 字段强制并行:T_arr^A、T_arr^B 与 delta_form。
  3. I75-2(PipelineSpec 与 DAG):管线以有向无环图 G=(V,E) 描述,节点类型 {ingest, calibrate, simulate, fit, validate, export};节点需声明 inputs/outputs/env/seed.
  4. I75-3(产物布局与命名):标准目录:products/、metrics.json、masks/、delta_form.log、repro/、cards/;文件名包含 {sim_id|run_id|stamp}。
  5. I75-4(实现接口原型)
    • export_dataset_card(ds: DataSpec) -> DatasetCard
    • run_pipeline(p: PipelineCard, cfg: SimCfg) -> ArtifactBundle
    • register_benchmark(bundle) -> BenchmarkID
  6. M75-1(数据摄取与校验):按 DataSpec 校验字段、单位与量纲;执行 hash 与完整性检查;生成 DatasetCard。
  7. M75-2(管线执行与复现):锁定环境(容器/依赖版本/随机种子),按 PipelineCard 执行,产出 ArtifactBundle 与 metrics.json。
  8. M75-3(基准与验收):对接第12章指标与阈值,执行回归;若 metrics 满足门限则进入发布队列。
  9. M75-4(审计与归档):归档 {code_hash, data_hash, rng_state, SimCfg, cards, masks, delta_form};产出审计清单。
  10. M75-5(发布与版本化):采用语义化版本 MAJOR.MINOR.PATCH;MAJOR 变更需附兼容性说明与迁移脚本;发布包为 repro_bundle。

IV. 正文结构


I. 数据卡(DatasetCard)

  1. 目的与范围:描述原始/处理后数据集的来源、口径、单位与协方差。
  2. 必填字段:
    • meta: {dataset_id, version, instrument, band, time_span}
    • spec: {columns:[{name, unit, dim, description, see}], sampling, calibration}
    • quality: {systematics, covariance, masks}
    • integrals: {path:"gamma(ell)", measure:"d ell"}(用于 ToA 相关列)
    • hash: {data_hash, card_hash}
    • see: 锚点到相关卷与条目
  3. ToA 双口径:并列存储 T_arr^A = ( 1 / c_ref ) * ( ∫ n_eff d ell ) 与 T_arr^B = ( ∫ ( n_eff / c_ref ) d ell ),并记录 delta_form。

II. 模型卡(ModelCard)

  1. 目的与范围:描述模型/参数化与先验、版本与兼容性。
  2. 必填字段:
    • model_id, version, family (S30/S40/S50/S52/…)
    • params: {name, transform, prior, bounds, unit, dim}
    • hyper: 层级先验与共享超参数
    • channels: {A_rec, A_shear, A_dsa, A_turb} 的开关与默认权重
    • diagnostics: 训练/拟合的证据与信息准则摘要
    • hash: {code_hash, card_hash}

III. 管线卡(PipelineCard)

  1. 目的与范围:标准化可复现的执行图。
  2. 必填字段:
    • pipeline_id, version;graph: nodes/edges
    • node[i]: {type, inputs, outputs, image/env, seed, resources}
    • acceptance: 对接第12章阈值的门限表
    • exports: {products/, metrics.json, masks/, delta_form.log, repro/}
    • provenance: {who, when, where} 与 code_hash/data_hash 对齐

IV. 校验、执行与发布


V. 与本卷/他卷的交叉引用


VI. 验证、判据与反例

  1. 阳性判据
    • DatasetCard/ModelCard/PipelineCard 通过 Schema 与 Unit/Dim 校核;
    • metrics.json 全部指标达到或优于阈值;
    • 复现实验在独立环境重放成功,hash 一致。
  2. 阴性判据
    • 量纲不闭合、ToA 未并行记录两口径或路径未显式;
    • 回归较前版本退化超阈值;
    • 审计清单缺失关键 hash/seed/SimCfg 字段。
  3. 对照设计
    • {只有数据卡更新, 只有模型卡更新, 只有管线卡更新} 的最小变更回归;
    • {Form A, Form B, A+B} ToA 处理对产物与证据的影响对比。

VII. 小结与下一章衔接
本章以 I75-* / M75-* 统一了数据—管线—基准的模式、执行与发布,确保量纲一致、门限可检与全链路可复现,并与第12–13章的指标与证据体系对齐。下一章(第15章)将进入“实现绑定与 API”(I80-*) 的对外接口与验收用例。

V. 图表与清单(本章)

Card

Required fields (subset)

DatasetCard

dataset_id, version, columns{name,unit,dim}, covariance, masks, data_hash, see

ModelCard

model_id, version, params{name,prior,bounds,unit,dim}, hyper, code_hash, family

PipelineCard

pipeline_id, version, graph{nodes,edges}, env, seed, acceptance, exports

type

required

outputs

notes

ingest

uri, schema

staged data

校验/标准化

calibrate

calib, masks

calib data

系统学修正

simulate

SimCfg

products/

见第12章

fit

ModelCard

posterior, evidence

见第13章

validate

thresholds

metrics.json

验收门限

export

targets

bundle

发布产物

key

example

purpose

sim_id

ASTROACC_GRB_M_v1

全局索引

code_hash

sha256:…

溯源

data_hash

sha256:…

完整性

rng_state

JSON

复现

delta_form

A/B

ToA 口径

Metric

Threshold

Gate

SpecMAE

≤ 3%

通过/失败

IndexErr

≤ 0.05

通过/失败

LagRMS

≤ 5%

通过/失败

PA_RMS

≤ 3°

通过/失败

ToAΔ

≤ 0.1 ms

通过/失败

path

content

cards/

DatasetCard/ModelCard/PipelineCard

products/

合成与拟合产物

metrics.json

指标与门限结果

masks/

占优能区与时段

delta_form.log

ToA 口径记录

repro/

环境锁定与脚本


版权与许可(CC BY 4.0)

版权声明:除另有说明外,《能量丝理论》(含文本、图表、插图、符号与公式)的著作权由作者(“屠广林”先生)享有。
许可方式:本作品采用 Creative Commons 署名 4.0 国际许可协议(CC BY 4.0)进行许可;在注明作者与来源的前提下,允许为商业或非商业目的进行复制、转载、节选、改编与再分发。
署名格式(建议):作者:“屠广林”;作品:《能量丝理论》;来源:energyfilament.org;许可证:CC BY 4.0。

首次发布: 2025-11-11|当前版本:v5.1
协议链接:https://creativecommons.org/licenses/by/4.0/