目录 / 文档-技术白皮书 / 52-数据集卡 Template v1.0
I. 适用范围(Scope of Use)
- 数据集类型:批处理(Batch)、流式(Streaming)、近实时(Near-RT)、混合(Hybrid)。
- 对象覆盖:原始观测/实验/模拟数据与其派生物(特征、标签、元数据、切分与评测对)。
- 路径量约束:凡涉及到达时/相位等路径量,正文显式 gamma(ell) 与测度 d ell,数据侧记录 delta_form ∈ {general, factored};发布要求 p_dim = 1.0。
- 非适用:无法提供单位/量纲、血缘或权限证明的数据;未通过质量门(G1–G8)且无 [Restricted] 说明的数据。
II. 场景矩阵(Dataset Scenarios Matrix)
场景 | 典型来源 | 核心字段 | 关键指标 | 质量门 | 说明 |
|---|---|---|---|---|---|
Batch | 分区文件/对象存储 | record_id, ts, schema.* | 完整率、去重率、p_dim | G1/G4/G8 | 版本化 Schema 与切分 |
Streaming | 事件/消息队列 | event_id, window, flags | 延迟、丢失率、σ_y(τ) | G3/G5/G6 | Exactly-Once/At-Least-Once 说明 |
Near-RT | 共享内存/微批 | ts_align, slice | 抖动、Latency_P95 | G5/G6 | 同步链路与水位策略 |
Hybrid | 线上+离线 | contract.snapshot | 对齐一致性、Q_res | G1–G8 | 线上回流与离线校核 |
路径量统一口径:
T_arr = ( 1 / c_ref ) * ( ∫ n_eff d ell );或 T_arr = ( ∫ ( n_eff / c_ref ) d ell );
相位:Phi = ( 2π / λ_ref ) * ( ∫ n_eff d ell )。
III. 依赖与对齐(Dependencies & Alignment)
- Core(必备):EFT.WP.Core.Terms v1.0、EFT.WP.Core.Equations v1.1、EFT.WP.Core.Metrology v1.0、EFT.WP.Core.DataSpec v1.0。
- 配套模板:参数注册卡 Template v1.0(Ch.9)、误差预算卡 Template v1.0(Ch.5/6/8/9)、管线卡 Template v1.0(Ch.12/9/11)、实验协议卡 Template v1.0(Ch.5)。
- 契约对齐:字段/单位/量纲与 TARR 一致;不确定度与协方差配置与误差预算卡一致(cov_group/Σ/coverage)。
- 同步与新鲜度:满足 Metrology.TimeBase/Sync v1.0(clock_state="locked"、|ts_start − calib.timestamp| ≤ τ_calib)。
IV. 引用与版本(Citations & Versioning)
- 固定写法:见《<卷名> vX.Y》<章节> <锚点>;优先 P/S/M/I;锚点直指率 ≥ 90%,禁止外链/别名。
- 版本策略:对外仅 v1.*;如引用 v0.*,须显著标注“草案/非承诺”。
- 依赖闭合:跨卷 see[]/references[]/version 与 manifest 同步;切分/对比所用基线版本须在 manifests/ 明示。
V. 合规前置(Compliance Prerequisites)
- 量纲闭合(G4):I70-dim_check 通过并随附 check_dim_report.json;p_dim = 1.0。
- Schema 完整(G1):schema.json/contract.yaml 与数据一致;主键/时间/路径块齐备。
- 路径规范(G3):gamma(ell)/d ell/delta_form 齐备;len(gamma_ell)=len(d_ell)=len(n_eff)≥2;Δell ≤ ( c_ref / f_s ) / max(n_eff)。
- 新鲜度(G5):clock_state="locked"、τ_calib 合规;过期样本标注并隔离。
- 覆盖口径(G6):coverage ∈ {k, alpha, quantile} 与发布口径一致。
- 协方差一致(G7):cov_group/Σ 与误差预算卡一致,Σ 正定。
- 唯一性(G8):record_id/checksum 不重复,血缘图无环。
VI. 产出与接口(Outputs & Interfaces)
- 必交付:schema.json、contract.yaml、split.yaml、validate_report.json、check_dim_report.json、audit.jsonl、report_manifest.yaml、SIGNATURE.asc。
- 接口(建议):
- I81-dataset_ingest(package) -> validate_report.json
- I82-dataset_validate(gates[]) -> report
- I83-dataset_manifest_export(fmt) -> report_manifest.yaml
- I84-dataset_split(plan.yaml) -> split_manifest.json
- I89-dataset_publish(channel) -> release_id
VII. 执行勾选清单(Checklist)
- 场景与适用域明确;see[]/references[] 合规且锚点直指率 ≥ 90%。
- 路径量显式 gamma(ell)/d ell;数据侧记录 delta_form;len(path) ≥ 2、Δell 合规。
- I70-dim_check 通过(p_dim = 1.0);clock_state="locked"、τ_calib 合规。
- schema.json/contract.yaml/split.yaml 一致;cov_group/coverage 与误差预算卡对齐。
- /validate 通过 G1–G8;manifest、校验和与签名齐全;必要时按规则标注 [Restricted]。
版权与许可(CC BY 4.0)
版权声明:除另有说明外,《能量丝理论》(含文本、图表、插图、符号与公式)的著作权由作者(“屠广林”先生)享有。
许可方式:本作品采用 Creative Commons 署名 4.0 国际许可协议(CC BY 4.0)进行许可;在注明作者与来源的前提下,允许为商业或非商业目的进行复制、转载、节选、改编与再分发。
署名格式(建议):作者:“屠广林”;作品:《能量丝理论》;来源:energyfilament.org;许可证:CC BY 4.0。
首次发布: 2025-11-11|当前版本:v5.1
协议链接:https://creativecommons.org/licenses/by/4.0/