目录 / 文档-技术白皮书 / 34-EFT.WP.Astro.Acceleration v1.0
I. 摘要与范围
本章定义数据、管线与基准的统一规范与发布流程 I75-* / M75-*:数据卡/模型卡/管线卡的模式与注册表,数据校验与量纲一致性,管线执行与可复现环境,基准套件与验收门限,对外发布的可复现包与审计轨。所有符号用英文记号并用反引号包裹;单位采用 SI;任一 ToA 相关量并行记录两种口径,显式路径 gamma(ell) 与测度 d ell。
II. 依赖与引用
- 统一符号与单位:第2章表 2-1 与 P12-*。
- 运动学与通道:第3章 S20-;重联/剪切:第4章 S30-、第5章 S40-;对照:第6章 S45-。
- 谱形成与传输:第7章 S50-、第8章 S52-。
- 专用分支:GRB(第10章 M62-)、FRB(第11章 M64-)。
- 仿真与基准栈:第12章 M70-*(产物与指标)。
- 推断与证伪:第13章 M72-*(证据、掩码与交付字段)。
III. 规范锚点(本章新增,I75-/M75-)
- I75-0(卡片模式与注册表):建立三类卡片的 JSON Schema:DatasetCard、ModelCard、PipelineCard;统一必填字段、Unit/Dim、see: 锚点、hash(code_hash/data_hash)与版本字段。
- I75-1(DataSpec 与字段约束):任何数值列必须携带 unit 与 dim;ToA 字段强制并行:T_arr^A、T_arr^B 与 delta_form。
- I75-2(PipelineSpec 与 DAG):管线以有向无环图 G=(V,E) 描述,节点类型 {ingest, calibrate, simulate, fit, validate, export};节点需声明 inputs/outputs/env/seed.
- I75-3(产物布局与命名):标准目录:products/、metrics.json、masks/、delta_form.log、repro/、cards/;文件名包含 {sim_id|run_id|stamp}。
- I75-4(实现接口原型):
- export_dataset_card(ds: DataSpec) -> DatasetCard
- run_pipeline(p: PipelineCard, cfg: SimCfg) -> ArtifactBundle
- register_benchmark(bundle) -> BenchmarkID
- M75-1(数据摄取与校验):按 DataSpec 校验字段、单位与量纲;执行 hash 与完整性检查;生成 DatasetCard。
- M75-2(管线执行与复现):锁定环境(容器/依赖版本/随机种子),按 PipelineCard 执行,产出 ArtifactBundle 与 metrics.json。
- M75-3(基准与验收):对接第12章指标与阈值,执行回归;若 metrics 满足门限则进入发布队列。
- M75-4(审计与归档):归档 {code_hash, data_hash, rng_state, SimCfg, cards, masks, delta_form};产出审计清单。
- M75-5(发布与版本化):采用语义化版本 MAJOR.MINOR.PATCH;MAJOR 变更需附兼容性说明与迁移脚本;发布包为 repro_bundle。
IV. 正文结构
I. 数据卡(DatasetCard)
- 目的与范围:描述原始/处理后数据集的来源、口径、单位与协方差。
- 必填字段:
- meta: {dataset_id, version, instrument, band, time_span}
- spec: {columns:[{name, unit, dim, description, see}], sampling, calibration}
- quality: {systematics, covariance, masks}
- integrals: {path:"gamma(ell)", measure:"d ell"}(用于 ToA 相关列)
- hash: {data_hash, card_hash}
- see: 锚点到相关卷与条目
- ToA 双口径:并列存储 T_arr^A = ( 1 / c_ref ) * ( ∫ n_eff d ell ) 与 T_arr^B = ( ∫ ( n_eff / c_ref ) d ell ),并记录 delta_form。
II. 模型卡(ModelCard)
- 目的与范围:描述模型/参数化与先验、版本与兼容性。
- 必填字段:
- model_id, version, family (S30/S40/S50/S52/…)
- params: {name, transform, prior, bounds, unit, dim}
- hyper: 层级先验与共享超参数
- channels: {A_rec, A_shear, A_dsa, A_turb} 的开关与默认权重
- diagnostics: 训练/拟合的证据与信息准则摘要
- hash: {code_hash, card_hash}
III. 管线卡(PipelineCard)
- 目的与范围:标准化可复现的执行图。
- 必填字段:
- pipeline_id, version;graph: nodes/edges
- node[i]: {type, inputs, outputs, image/env, seed, resources}
- acceptance: 对接第12章阈值的门限表
- exports: {products/, metrics.json, masks/, delta_form.log, repro/}
- provenance: {who, when, where} 与 code_hash/data_hash 对齐
IV. 校验、执行与发布
- 数据校验(M75-1):执行 Schema 与 Unit/Dim 校核;ToA 列检查路径与测度是否显式。
- 管线执行(M75-2):固定 seed 与环境,生成产物与 metrics.json;失败节点须返回可重放的最小状态。
- 验收门限(M75-3):匹配第12章指标,形成通过/失败与差分报告。
- 发布(M75-5):将 ArtifactBundle、三类卡片与 repro_bundle 打包入注册表;生成索引与检索键。
V. 与本卷/他卷的交叉引用
- 指标与门限:第12章(SpecMAE/LagRMS/PA_RMS/ToAΔ)。
- 证据与掩码:第13章(posterior, evidence, masks, falsification_line)。
- ToA 字段:第7章/第8章的谱与传输映射;第10–11章的时间基与路径改正。
- 模型家族与参数:第4–6章(S30/S40/S45 族)与第7–8章(S50/S52)。
VI. 验证、判据与反例
- 阳性判据:
- DatasetCard/ModelCard/PipelineCard 通过 Schema 与 Unit/Dim 校核;
- metrics.json 全部指标达到或优于阈值;
- 复现实验在独立环境重放成功,hash 一致。
- 阴性判据:
- 量纲不闭合、ToA 未并行记录两口径或路径未显式;
- 回归较前版本退化超阈值;
- 审计清单缺失关键 hash/seed/SimCfg 字段。
- 对照设计:
- {只有数据卡更新, 只有模型卡更新, 只有管线卡更新} 的最小变更回归;
- {Form A, Form B, A+B} ToA 处理对产物与证据的影响对比。
VII. 小结与下一章衔接
本章以 I75-* / M75-* 统一了数据—管线—基准的模式、执行与发布,确保量纲一致、门限可检与全链路可复现,并与第12–13章的指标与证据体系对齐。下一章(第15章)将进入“实现绑定与 API”(I80-*) 的对外接口与验收用例。
V. 图表与清单(本章)
- 表 14-1 三类卡片最小字段
Card | Required fields (subset) |
|---|---|
DatasetCard | dataset_id, version, columns{name,unit,dim}, covariance, masks, data_hash, see |
ModelCard | model_id, version, params{name,prior,bounds,unit,dim}, hyper, code_hash, family |
PipelineCard | pipeline_id, version, graph{nodes,edges}, env, seed, acceptance, exports |
- 表 14-2 Pipeline 节点类型与字段
type | required | outputs | notes |
|---|---|---|---|
ingest | uri, schema | staged data | 校验/标准化 |
calibrate | calib, masks | calib data | 系统学修正 |
simulate | SimCfg | products/ | 见第12章 |
fit | ModelCard | posterior, evidence | 见第13章 |
validate | thresholds | metrics.json | 验收门限 |
export | targets | bundle | 发布产物 |
- 表 14-3 注册表键与审计项
key | example | purpose |
|---|---|---|
sim_id | ASTROACC_GRB_M_v1 | 全局索引 |
code_hash | sha256:… | 溯源 |
data_hash | sha256:… | 完整性 |
rng_state | JSON | 复现 |
delta_form | A/B | ToA 口径 |
- 表 14-4 验收门限映射(对接第12章)
Metric | Threshold | Gate |
|---|---|---|
SpecMAE | ≤ 3% | 通过/失败 |
IndexErr | ≤ 0.05 | 通过/失败 |
LagRMS | ≤ 5% | 通过/失败 |
PA_RMS | ≤ 3° | 通过/失败 |
ToAΔ | ≤ 0.1 ms | 通过/失败 |
- 表 14-5 发布包目录布局
path | content |
|---|---|
cards/ | DatasetCard/ModelCard/PipelineCard |
products/ | 合成与拟合产物 |
metrics.json | 指标与门限结果 |
masks/ | 占优能区与时段 |
delta_form.log | ToA 口径记录 |
repro/ | 环境锁定与脚本 |
版权与许可(CC BY 4.0)
版权声明:除另有说明外,《能量丝理论》(含文本、图表、插图、符号与公式)的著作权由作者(“屠广林”先生)享有。
许可方式:本作品采用 Creative Commons 署名 4.0 国际许可协议(CC BY 4.0)进行许可;在注明作者与来源的前提下,允许为商业或非商业目的进行复制、转载、节选、改编与再分发。
署名格式(建议):作者:“屠广林”;作品:《能量丝理论》;来源:energyfilament.org;许可证:CC BY 4.0。
首次发布: 2025-11-11|当前版本:v5.1
协议链接:https://creativecommons.org/licenses/by/4.0/