目录 / 文档-技术白皮书 / 43-EFT.WP.Data.DatasetCards v1.0
I. 章节目的与范围
给出数据集卡的字段分层(必填/条件必填/可选)、命名与类型约束、最小正则与示例;所有键名采用 snake_case,数组以 [] 表示复数实体。II. 字段分层与命名约定
- 分层:
- 必填(Required):发布时必须存在,且通过类型/正则/依赖校验。
- 条件必填(Conditionally Required):触发条件满足时必须存在(在“适用条件”列明确)。
- 可选(Optional):存在即校验,不存在不报错。
- 命名:键名统一 snake_case;保留名不得重定义(如 dataset_id、version、license、access、splits)。
- 引用与锚点:涉及依赖的字段在 see[] 使用 "卷名 vX.Y:锚点";导出物含 references[] 与 version。
III. 必填字段清单(Required)
键名 | 类型 | 约束/正则 | 说明 | 依赖与引用 |
|---|---|---|---|---|
dataset_id | string | ^[a-z0-9_\\-.]+$ | 数据集唯一标识 | 组织与发布策略见《Core.DataSpec v1.0》。 |
title | string | 长度 ≥ 3 | 数据集名称(人类可读) | — |
version | string | ^v\\d+\\.\\d+(\\.\\d+)?$ | 语义化版本 | 导出物必须携带版本。 |
summary | string | — | 100–300 字摘要 | — |
modality | string[] | enum | 如 radio/optical/image/time_series/text/tabular | — |
sources | string[] | URL/标识 | 数据来源或上游卡片引用 | 发布与文件组织见《Core.DataSpec v1.0》。 |
license | string | enum | 许可策略 | 对外发布口径见《Core.DataSpec v1.0》。 |
access | string | `open | restricted | closed` |
provenance | object | schema | 采集/来源记录 | 采样/清洗见“方法”系卷。 |
splits | object | required: train/validation/test | 切分定义与比例 | 发布清单中需含哈希。 |
checksums | object | sha256 | 包级与分片级校验 | 对应导出策略。 |
metrology | object | schema | 计量与单位基线 | 量纲校验 check_dim。 |
quality | object | schema | 质量门与覆盖率指标 | 质量与基线章对齐。 |
export_manifest | object | schema | 导出清单,含 version、references[]、工件列表 | 机器可解析引用规范。 |
IV. 条件必填字段清单(Conditionally Required)
键名 | 类型 | 触发条件 | 约束/正则 | 说明 | 依赖与引用 |
|---|---|---|---|---|---|
sensor_profile | object | 涉及物理传感/仪器 | schema | 传感器/台站/通道配置 | 计量与仪器系卷。 |
labels | object | 有监督/标注数据 | schema | 标签本体、class_map、多语映射 | 术语统一见 Core.Terms。 |
privacy | object | 涉及 PII/敏感信息 | enum/policy | 脱敏与合规声明 | DataSpec 合规口径。 |
uncertainty | object | 含测量/推断量 | schema | 误差预算与传播 | Errors/Metrology 工作流。 |
path_dependence | object | 涉及路径量(如 T_arr) | schema | delta_form、path="gamma(ell)"、measure="d ell" | 到达时两口径与维度守恒。 |
ethics | object | 涉及伦理与风险 | schema | 风险披露与适用限制 | 发布策略口径。 |
V. 可选扩展字段清单(Optional)
键名 | 类型 | 约束 | 说明 |
|---|---|---|---|
lineage | string[] | 上游 dataset_id@version 列表 | 血缘追踪 |
related_artifacts | string[] | 文件/脚本/基线模型 | 关联工件 |
notes | string | — | 备注(非规范性) |
mirrors | string[] | URL | 分发镜像 |
shards | object | schema | 分片策略与大小 |
VI. 计量与路径相关字段(metrology 与 path_dependence 片段)
metrology:
units: "SI"
c_ref: 299792458 # m/s
check_dim: true
path_dependence:
applies_to: ["T_arr"]
delta_form: "const-factor" # or "general"
path: "gamma(ell)"
measure: "d ell"
see:
- "EFT.WP.Core.Equations v1.1:S20-1"
- "EFT.WP.Core.Metrology v1.0:check_dim"
(路径与测度登记、以及 see[] 的机器可解析写法与导出策略一致。)
VII. 导出清单与引用(export_manifest 片段)
export_manifest:
version: "v1.0"
artifacts:
- path: "datasets/foo/train-000.tgz"
sha256: "…"
references:
- "EFT.WP.Core.DataSpec v1.0:EXPORT"
- "EFT.WP.Core.Equations v1.1:S20-1"
- "EFT.WP.Core.Metrology v1.0:check_dim"
(导出物必须含 version 与 references[],引用携带卷名+版本+锚点。)
VIII. 键模式与最小正则
- 标识:dataset_id: ^[a-z0-9_\\-.]+$;版本:version: ^v\\d+\\.\\d+(\\.\\d+)?$;枚举字段以 enum 固化。
- 数值字段的单位与量纲由 metrology 统一校验,禁止在公式中出现中文;T_fil/T_trans、n/n_eff 严格区分。
IX. see[] 与跨卷依赖映射(示例)
see:
- "EFT.WP.Core.Terms v1.0:P10-*"
- "EFT.WP.Core.DataSpec v1.0:EXPORT"
- "EFT.WP.Core.Equations v1.1:S20-1"
(按照固定格式与锚点类型 P/S/M/I 进行条文级引用。)
X. 本章合规自检
- 所有必填键存在且满足类型/正则,保留名未被重定义。
- export_manifest 含 version 与 references[],see[] 使用 "卷名 vX.Y:锚点"。
- 涉及 T_arr 的条目登记 delta_form、path、measure,并通过 check_dim。
- 符号/公式遵循反引号与括号规则,不使用中文;T_fil/T_trans、n/n_eff 不混用。
版权与许可(CC BY 4.0)
版权声明:除另有说明外,《能量丝理论》(含文本、图表、插图、符号与公式)的著作权由作者(“屠广林”先生)享有。
许可方式:本作品采用 Creative Commons 署名 4.0 国际许可协议(CC BY 4.0)进行许可;在注明作者与来源的前提下,允许为商业或非商业目的进行复制、转载、节选、改编与再分发。
署名格式(建议):作者:“屠广林”;作品:《能量丝理论》;来源:energyfilament.org;许可证:CC BY 4.0。
首次发布: 2025-11-11|当前版本:v5.1
协议链接:https://creativecommons.org/licenses/by/4.0/