目录文档-技术白皮书43-EFT.WP.Data.DatasetCards v1.0

第4章 标准字段定义


I. 章节目的与适用范围

的语义、类型、约束与示例,提供可直接落地的 Schema 片段与校验要点;命名一律 snake_case,条文级引用采用“卷名+版本+锚点”。 必填字段固化

II. 字段总表(必填)

键名

类型

约束/正则

语义定义

交叉引用/锚点

dataset_id

string

^[a-z0-9_\\-.]+$

数据集唯一标识(对外发布与血缘引用的根键)

文件组织与发布:见《Core.DataSpec v1.0》Ch.1–3。

title

string

长度 ≥ 3

人类可读标题

version

string

^v\\d+\\.\\d+(\\.\\d+)?$

语义化版本(对外仅用稳定线)

版本携带/稳定线:见《引用规范 v0.1》。

summary

string

100–300 字

数据集用途、覆盖与限制的摘要

modality

string[]

enum

观测/数据模态:`radio

optical

sources

string[]

URL/标识

上游来源或引用的 dataset_id@version

发布策略:见《Core.DataSpec v1.0》。

license

string

enum

许可协议标识(兼容 SPDX)

对外口径:见《Core.DataSpec v1.0》。

access

string

`open

restricted

closed`

provenance

object

schema

采集环境、时间/空间覆盖、来源链条

方法/清洗系卷对齐。

splits

object

required: train,validation,test

切分定义与比例/样本数

导出需含哈希:见《Core.DataSpec v1.0》。

checksums

object

sha256

包/分片完整性校验

导出策略:见《Core.DataSpec v1.0》。

metrology

object

schema

单位/量纲基线、check_dim 使能

量纲校核:见《Core.Metrology v1.0》。

quality

object

schema

质量门与覆盖率指标

质量/基线:见 Data.Benchmarks 系卷。

export_manifest

object

schema

导出清单,含 version、references[]、工件列表

机器可读引用:见《引用规范 v0.1》。


III. 详细定义与示例

1) dataset_id

2) version

3) modality

4) sources

5) provenance

6) splits

合法性:比例和为 1±1e-6;count 为非负整数。

7) checksums

8) metrology

9) quality

10) export_manifest


IV. 与路径/到达时相关的必填登记(如适用)

  1. 若数据含路径依赖量(如 T_arr),在本章字段中至少落地:
  2. path_dependence:
  3. applies_to: ["T_arr"]
  4. delta_form: "const-factor" # 或 "general"
  5. path: "gamma(ell)"
  6. measure: "d ell"
  7. see:
  8. - "EFT.WP.Core.Equations v1.1:S20-1"
  9. - "EFT.WP.Core.Metrology v1.0:check_dim"
  10. 到达时两口径并存:
    • T_arr = ( 1 / c_ref ) * ( ∫ n_eff d ell )
    • T_arr = ( ∫ ( n_eff / c_ref ) d ell )
      登记 delta_form、path、measure 并通过量纲校验。

V. 机器可读 Schema(节选,规范性)

# I15-1 Dataset Card Schema (required subset)

type: object

required: [dataset_id, title, version, summary, modality, sources, license, access, provenance, splits, checksums, metrology, quality, export_manifest]

properties:

dataset_id: {type: string, pattern: "^[a-z0-9_\\-\\.]+$"}

title: {type: string, minLength: 3}

version: {type: string, pattern: "^v\\d+\\.\\d+(\\.\\d+)?$"}

summary: {type: string, minLength: 100, maxLength: 600}

modality: {type: array, items: {type: string, enum: [radio,optical,image,time_series,text,tabular]}, minItems: 1}

sources: {type: array, items: {type: string}, minItems: 1}

license: {type: string}

access: {type: string, enum: [open,restricted,closed]}

provenance:

type: object

required: [collection_method, time_coverage]

properties:

collection_method: {type: string}

instruments: {type: array, items: {type: object}}

time_coverage: {type: string}

spatial_coverage: {type: string}

selection_bias: {type: string}

splits:

type: object

required: [train, validation, test]

properties:

train: {type: object, required: [count, ratio]}

validation: {type: object, required: [count, ratio]}

test: {type: object, required: [count, ratio]}

checksums:

type: object

properties:

package: {type: object, properties: {sha256: {type: string}}}

shards: {type: array, items: {type: object, properties: {path:{type:string}, sha256:{type:string}}}}

metrology:

type: object

required: [units, c_ref, check_dim]

properties:

units: {type: string, const: "SI"}

c_ref: {type: number}

check_dim: {type: boolean, const: true}

quality:

type: object

properties:

gates: {type: array}

coverage: {type: object}

export_manifest:

type: object

required: [version, artifacts, references]

properties:

version: {type: string}

artifacts: {type: array, items: {type: object}}

references: {type: array, items: {type: string, pattern: "^[^:]+ v\\d+\\.\\d+:[A-Z].+$"}}

see:

- "EFT.WP.Core.DataSpec v1.0:EXPORT"

- "EFT.WP.Core.Equations v1.1:S20-1"

- "EFT.WP.Core.Metrology v1.0:check_dim"

(引用与锚点格式、单位与量纲校核、禁用中文与内联记号规则,按《全面清单 v0.1》与《引用规范 v0.1》执行。)


VI. 名称冲突与禁令(适用于本章所有字段)

并声明 gamma(ell)、d ell。 必须加括号;含分式/积分/复合算符公式/符号/定义禁用中文严格区分;n(数密度)与 n_eff(有效折射率)不可混用T_fil(张力)与 T_trans(透射系数)

VII. 本章合规自检


版权与许可(CC BY 4.0)

版权声明:除另有说明外,《能量丝理论》(含文本、图表、插图、符号与公式)的著作权由作者(“屠广林”先生)享有。
许可方式:本作品采用 Creative Commons 署名 4.0 国际许可协议(CC BY 4.0)进行许可;在注明作者与来源的前提下,允许为商业或非商业目的进行复制、转载、节选、改编与再分发。
署名格式(建议):作者:“屠广林”;作品:《能量丝理论》;来源:energyfilament.org;许可证:CC BY 4.0。

首次发布: 2025-11-11|当前版本:v5.1
协议链接:https://creativecommons.org/licenses/by/4.0/