目录 / 文档-技术白皮书 / 43-EFT.WP.Data.DatasetCards v1.0
I. 章节目的与适用范围
的语义、类型、约束与示例,提供可直接落地的 Schema 片段与校验要点;命名一律 snake_case,条文级引用采用“卷名+版本+锚点”。 必填字段固化II. 字段总表(必填)
键名 | 类型 | 约束/正则 | 语义定义 | 交叉引用/锚点 |
|---|---|---|---|---|
dataset_id | string | ^[a-z0-9_\\-.]+$ | 数据集唯一标识(对外发布与血缘引用的根键) | 文件组织与发布:见《Core.DataSpec v1.0》Ch.1–3。 |
title | string | 长度 ≥ 3 | 人类可读标题 | — |
version | string | ^v\\d+\\.\\d+(\\.\\d+)?$ | 语义化版本(对外仅用稳定线) | 版本携带/稳定线:见《引用规范 v0.1》。 |
summary | string | 100–300 字 | 数据集用途、覆盖与限制的摘要 | — |
modality | string[] | enum | 观测/数据模态:`radio | optical |
sources | string[] | URL/标识 | 上游来源或引用的 dataset_id@version | 发布策略:见《Core.DataSpec v1.0》。 |
license | string | enum | 许可协议标识(兼容 SPDX) | 对外口径:见《Core.DataSpec v1.0》。 |
access | string | `open | restricted | closed` |
provenance | object | schema | 采集环境、时间/空间覆盖、来源链条 | 方法/清洗系卷对齐。 |
splits | object | required: train,validation,test | 切分定义与比例/样本数 | 导出需含哈希:见《Core.DataSpec v1.0》。 |
checksums | object | sha256 | 包/分片完整性校验 | 导出策略:见《Core.DataSpec v1.0》。 |
metrology | object | schema | 单位/量纲基线、check_dim 使能 | 量纲校核:见《Core.Metrology v1.0》。 |
quality | object | schema | 质量门与覆盖率指标 | 质量/基线:见 Data.Benchmarks 系卷。 |
export_manifest | object | schema | 导出清单,含 version、references[]、工件列表 | 机器可读引用:见《引用规范 v0.1》。 |
III. 详细定义与示例
1) dataset_id
- 语义:跨版本稳定的主键,建议组织前缀(如 org.project.dataset)。
- 约束:^[a-z0-9_\\-.]+$;区分大小写:否。
- 示例:eift.obs.frb_catalog,labx_radio.arraysim.v1。
- 引用:与导出结构绑定,见《Core.DataSpec v1.0》。
2) version
- 语义:发布版本;对外材料仅引用 v1.* 稳定线。
- 约束:^v\\d+\\.\\d+(\\.\\d+)?$。
- 示例:v1.0、v1.2.3。
- 引用:版本携带为强制项,见《引用规范 v0.1》。
3) modality
- 语义:观测/数据模态分类。
- 约束:枚举;允许多值。
- 示例:["radio","time_series"]。
- 引用:术语以《Core.Terms v1.0》口径为准。
4) sources
- 语义:上游来源(URL、DOI、dataset_id@version)。
- 约束:至少 1 项;每项需可解析。
- 示例:["doi:10.1234/abcd","eift.surveys.sky@v1.1"]。
- 引用:文件组织与对外策略,见《Core.DataSpec v1.0》。
5) provenance
- 语义:采集方式、仪器/台站、时间/空间覆盖、选择偏差。
- 结构:
- provenance:
- collection_method: "beamformed-array"
- instruments: [{name:"LOFAR", station:"DE601"}]
- time_coverage: "2019-01-01..2024-12-31"
- spatial_coverage: "RA/Dec ranges or tiles"
- selection_bias: "flux-limited, SNR>7"
- 引用:流程对齐 Methods.Cleaning/Repro。
6) splits
- 语义:训练/验证/测试划分。
- 结构与约束:
- splits:
- train: {count: 12000, ratio: 0.8}
- validation: {count: 1500, ratio: 0.1}
- test: {count: 1500, ratio: 0.1}
合法性:比例和为 1±1e-6;count 为非负整数。
- 引用:导出与哈希校核绑定,见《Core.DataSpec v1.0》。
7) checksums
- 语义:工件完整性校验。
- 结构:
- checksums:
- package: {sha256: "…"}
- shards:
- - {path: "train-000.tgz", sha256: "…"}
- - {path: "train-001.tgz", sha256: "…"}
- 引用:随导出清单交付。
8) metrology
- 语义:单位体系与量纲一致性。
- 结构:
- metrology:
- units: "SI"
- c_ref: 299792458 # m/s
- check_dim: true
- 规则:禁用中文于公式;符号用反引号;含分式/积分/复合算符加括号并显式 gamma(ell) 与 d ell。
9) quality
- 语义:质量门(通过标准)与覆盖率指标。
- 结构:
- quality:
- gates:
- - {name:"label_consistency", threshold: 0.98}
- - {name:"snr_min", threshold: 7.0}
- coverage:
- samples: 15000
- classes: {"FRB": 520, "RFI": 2100, "Noise": 12380}
- 引用:与基线/评测卷一致。
10) export_manifest
- 语义:导出工件与引用清单(审计轨)。
- 结构(最小片段):
- export_manifest:
- version: "v1.0"
- artifacts:
- - path: "datasets/foo/train-000.tgz"
- sha256: "…"
- references:
- - "EFT.WP.Core.DataSpec v1.0:EXPORT"
- - "EFT.WP.Core.Equations v1.1:S20-1"
- - "EFT.WP.Core.Metrology v1.0:check_dim"
- 规则:version 与 references[] 为强制;references[] 采用 "卷名 vX.Y:锚点";禁止短码/别名。
IV. 与路径/到达时相关的必填登记(如适用)
- 若数据含路径依赖量(如 T_arr),在本章字段中至少落地:
- path_dependence:
- applies_to: ["T_arr"]
- delta_form: "const-factor" # 或 "general"
- path: "gamma(ell)"
- measure: "d ell"
- see:
- - "EFT.WP.Core.Equations v1.1:S20-1"
- - "EFT.WP.Core.Metrology v1.0:check_dim"
- 到达时两口径并存:
- T_arr = ( 1 / c_ref ) * ( ∫ n_eff d ell )
- T_arr = ( ∫ ( n_eff / c_ref ) d ell )
登记 delta_form、path、measure 并通过量纲校验。
V. 机器可读 Schema(节选,规范性)
# I15-1 Dataset Card Schema (required subset)
type: object
required: [dataset_id, title, version, summary, modality, sources, license, access, provenance, splits, checksums, metrology, quality, export_manifest]
properties:
dataset_id: {type: string, pattern: "^[a-z0-9_\\-\\.]+$"}
title: {type: string, minLength: 3}
version: {type: string, pattern: "^v\\d+\\.\\d+(\\.\\d+)?$"}
summary: {type: string, minLength: 100, maxLength: 600}
modality: {type: array, items: {type: string, enum: [radio,optical,image,time_series,text,tabular]}, minItems: 1}
sources: {type: array, items: {type: string}, minItems: 1}
license: {type: string}
access: {type: string, enum: [open,restricted,closed]}
provenance:
type: object
required: [collection_method, time_coverage]
properties:
collection_method: {type: string}
instruments: {type: array, items: {type: object}}
time_coverage: {type: string}
spatial_coverage: {type: string}
selection_bias: {type: string}
splits:
type: object
required: [train, validation, test]
properties:
train: {type: object, required: [count, ratio]}
validation: {type: object, required: [count, ratio]}
test: {type: object, required: [count, ratio]}
checksums:
type: object
properties:
package: {type: object, properties: {sha256: {type: string}}}
shards: {type: array, items: {type: object, properties: {path:{type:string}, sha256:{type:string}}}}
metrology:
type: object
required: [units, c_ref, check_dim]
properties:
units: {type: string, const: "SI"}
c_ref: {type: number}
check_dim: {type: boolean, const: true}
quality:
type: object
properties:
gates: {type: array}
coverage: {type: object}
export_manifest:
type: object
required: [version, artifacts, references]
properties:
version: {type: string}
artifacts: {type: array, items: {type: object}}
references: {type: array, items: {type: string, pattern: "^[^:]+ v\\d+\\.\\d+:[A-Z].+$"}}
see:
- "EFT.WP.Core.DataSpec v1.0:EXPORT"
- "EFT.WP.Core.Equations v1.1:S20-1"
- "EFT.WP.Core.Metrology v1.0:check_dim"
(引用与锚点格式、单位与量纲校核、禁用中文与内联记号规则,按《全面清单 v0.1》与《引用规范 v0.1》执行。)
VI. 名称冲突与禁令(适用于本章所有字段)
并声明 gamma(ell)、d ell。 必须加括号;含分式/积分/复合算符公式/符号/定义禁用中文;严格区分;n(数密度)与 n_eff(有效折射率)不可混用T_fil(张力)与 T_trans(透射系数)VII. 本章合规自检
- 表 II 所列全部必填键存在且通过类型/正则校验;保留名未被重定义。
- export_manifest 含 version 与 references[];references[]/see[] 采用 "卷名 vX.Y:锚点" 固定格式,不允许短码/别名。
- 涉及 T_arr 的数据项登记 delta_form、path、measure,并通过 check_dim。
- 数学表达满足反引号、括号与禁用中文规则;T_fil/T_trans 与 n/n_eff 不混用。
版权与许可(CC BY 4.0)
版权声明:除另有说明外,《能量丝理论》(含文本、图表、插图、符号与公式)的著作权由作者(“屠广林”先生)享有。
许可方式:本作品采用 Creative Commons 署名 4.0 国际许可协议(CC BY 4.0)进行许可;在注明作者与来源的前提下,允许为商业或非商业目的进行复制、转载、节选、改编与再分发。
署名格式(建议):作者:“屠广林”;作品:《能量丝理论》;来源:energyfilament.org;许可证:CC BY 4.0。
首次发布: 2025-11-11|当前版本:v5.1
协议链接:https://creativecommons.org/licenses/by/4.0/