目录文档-技术白皮书43-EFT.WP.Data.DatasetCards v1.0

第3章 字段总览


I. 章节目的与范围

给出数据集卡的字段分层(必填/条件必填/可选)、命名与类型约束、最小正则与示例;所有键名采用 snake_case,数组以 [] 表示复数实体。

II. 字段分层与命名约定

  1. 分层
    • 必填(Required):发布时必须存在,且通过类型/正则/依赖校验。
    • 条件必填(Conditionally Required):触发条件满足时必须存在(在“适用条件”列明确)。
    • 可选(Optional):存在即校验,不存在不报错。
  2. 命名:键名统一 snake_case;保留名不得重定义(如 dataset_id、version、license、access、splits)。
  3. 引用与锚点:涉及依赖的字段在 see[] 使用 "卷名 vX.Y:锚点";导出物含 references[] 与 version。

III. 必填字段清单(Required)

键名

类型

约束/正则

说明

依赖与引用

dataset_id

string

^[a-z0-9_\\-.]+$

数据集唯一标识

组织与发布策略见《Core.DataSpec v1.0》。

title

string

长度 ≥ 3

数据集名称(人类可读)

version

string

^v\\d+\\.\\d+(\\.\\d+)?$

语义化版本

导出物必须携带版本。

summary

string

100–300 字摘要

modality

string[]

enum

如 radio/optical/image/time_series/text/tabular

sources

string[]

URL/标识

数据来源或上游卡片引用

发布与文件组织见《Core.DataSpec v1.0》。

license

string

enum

许可策略

对外发布口径见《Core.DataSpec v1.0》。

access

string

`open

restricted

closed`

provenance

object

schema

采集/来源记录

采样/清洗见“方法”系卷。

splits

object

required: train/validation/test

切分定义与比例

发布清单中需含哈希。

checksums

object

sha256

包级与分片级校验

对应导出策略。

metrology

object

schema

计量与单位基线

量纲校验 check_dim。

quality

object

schema

质量门与覆盖率指标

质量与基线章对齐。

export_manifest

object

schema

导出清单,含 version、references[]、工件列表

机器可解析引用规范。


IV. 条件必填字段清单(Conditionally Required)

键名

类型

触发条件

约束/正则

说明

依赖与引用

sensor_profile

object

涉及物理传感/仪器

schema

传感器/台站/通道配置

计量与仪器系卷。

labels

object

有监督/标注数据

schema

标签本体、class_map、多语映射

术语统一见 Core.Terms。

privacy

object

涉及 PII/敏感信息

enum/policy

脱敏与合规声明

DataSpec 合规口径。

uncertainty

object

含测量/推断量

schema

误差预算与传播

Errors/Metrology 工作流。

path_dependence

object

涉及路径量(如 T_arr)

schema

delta_form、path="gamma(ell)"、measure="d ell"

到达时两口径与维度守恒。

ethics

object

涉及伦理与风险

schema

风险披露与适用限制

发布策略口径。


V. 可选扩展字段清单(Optional)

键名

类型

约束

说明

lineage

string[]

上游 dataset_id@version 列表

血缘追踪

related_artifacts

string[]

文件/脚本/基线模型

关联工件

notes

string

备注(非规范性)

mirrors

string[]

URL

分发镜像

shards

object

schema

分片策略与大小


VI. 计量与路径相关字段(metrology 与 path_dependence 片段)

metrology:

units: "SI"

c_ref: 299792458 # m/s

check_dim: true

path_dependence:

applies_to: ["T_arr"]

delta_form: "const-factor" # or "general"

path: "gamma(ell)"

measure: "d ell"

see:

- "EFT.WP.Core.Equations v1.1:S20-1"

- "EFT.WP.Core.Metrology v1.0:check_dim"

(路径与测度登记、以及 see[] 的机器可解析写法与导出策略一致。)


VII. 导出清单与引用(export_manifest 片段)

export_manifest:

version: "v1.0"

artifacts:

- path: "datasets/foo/train-000.tgz"

sha256: "…"

references:

- "EFT.WP.Core.DataSpec v1.0:EXPORT"

- "EFT.WP.Core.Equations v1.1:S20-1"

- "EFT.WP.Core.Metrology v1.0:check_dim"

(导出物必须含 version 与 references[],引用携带卷名+版本+锚点。)


VIII. 键模式与最小正则


IX. see[] 与跨卷依赖映射(示例)

see:

- "EFT.WP.Core.Terms v1.0:P10-*"

- "EFT.WP.Core.DataSpec v1.0:EXPORT"

- "EFT.WP.Core.Equations v1.1:S20-1"

(按照固定格式与锚点类型 P/S/M/I 进行条文级引用。)


X. 本章合规自检


版权与许可(CC BY 4.0)

版权声明:除另有说明外,《能量丝理论》(含文本、图表、插图、符号与公式)的著作权由作者(“屠广林”先生)享有。
许可方式:本作品采用 Creative Commons 署名 4.0 国际许可协议(CC BY 4.0)进行许可;在注明作者与来源的前提下,允许为商业或非商业目的进行复制、转载、节选、改编与再分发。
署名格式(建议):作者:“屠广林”;作品:《能量丝理论》;来源:energyfilament.org;许可证:CC BY 4.0。

首次发布: 2025-11-11|当前版本:v5.1
协议链接:https://creativecommons.org/licenses/by/4.0/