目录 / 文档-技术白皮书 / 43-EFT.WP.Data.DatasetCards v1.0
I. 章节目的与读者
- 目的:确立“数据集卡(Dataset Card)”在 EFT 体系内的定位、最小合规要求与使用边界;给出与其他卷的依赖关系与引用口径。
- 读者:数据提供方、管线/平台工程师、计量与质量负责人、报告撰写者、审计与复现实验执行者。
II. 术语与引用口径
- 术语来源:通用术语遵循《EFT.WP.Core.Terms v1.0》,本卷仅增量定义字段名与约束。引用时必须携带卷名与版本号,并优先指向条文级锚点 P/S/M/I。示例:见《EFT.WP.Core.Equations v1.1》Ch.2 S20-1。
- 内联符号:一律使用反引号包裹,如 T_arr、c_ref、n_eff;含除号/积分/复合算符的表达加括号并显式声明路径 gamma(ell) 与测度 d ell。
- 到达时两口径(跨卷统一示例):
- T_arr = ( 1 / c_ref ) * ( ∫ n_eff d ell )
- T_arr = ( ∫ ( n_eff / c_ref ) d ell )
任一处使用 T_arr,均需在元数据登记 delta_form、path="gamma(ell)"、measure="d ell"。
III. 本卷适用范围(In Scope)
- 对象:任何用于 EFT 研究、工程或发布的数据集之元数据与文档化要求,含字段集合、取值约束、示例、校验与导出。
- 覆盖环节:来源与采样、清洗与预处理、标签与本体、计量与单位、不确定度与误差预算、切分与分发、质量与基线、隐私伦理合规、发布与版本化、机器可读 Schema 与 Lint、实现绑定与验证 API、模板与最佳实践。对应全书 Ch.3–Ch.18。
- 引用依赖:数据契约与文件组织遵循《EFT.WP.Core.DataSpec v1.0》;单位/量纲与不确定度遵循《EFT.WP.Core.Metrology v1.0》;涉及公式时遵循《EFT.WP.Core.Equations v1.1》。
IV. 非适用范围(Out of Scope)
:模型训练细节与调参指南;算法实现与性能优化手册;与数据无关的理论推导正文;跨学科伦理评审流程的机构性条款。相关内容分别见 Methods/ModelCards/Benchmarks/领域协议等卷。不含V. 产出物与合规门槛
- 产出物:
- dataset_card.yaml(或 JSON)——满足本卷 Schema 与必填字段;
- export_manifest——含 version 与 references[];
- 校验报告(Lint、Schema 校验、计量校验与不确定度合成项)。
- 最低合规(发布前必须通过):
- 必填字段完整、类型与正则约束通过;
- 单位/量纲校验 check_dim 通过;
- T_arr 相关字段已登记 delta_form、path、measure;
- 参考条目采用“卷名+版本号+锚点”的固定写法,无短码与别名。
VI. 文档结构与跨卷依赖地图
- 结构映射:
- Ch.3–Ch.5 定义字段清单与分层(必填与可选扩展);
- Ch.6–Ch.8 记录来源/采样、清洗/预处理、标签/本体;
- Ch.9–Ch.10 落地计量/单位与不确定度/误差预算;
- Ch.11–Ch.12 切分/分发与质量/基线;
- Ch.13–Ch.14 合规与版本化;
- Ch.15–Ch.16 机器可读 Schema、Lint 与验证 API;
- Ch.17–Ch.18 示例与模板。
- 依赖约束:
- 术语一律回指《Core.Terms v1.0》;
- 量纲/单位与不确定度口径回指《Core.Metrology v1.0》;
- 与路径相关的方程回指《Core.Equations v1.1》。
VII. 字段层级与命名规范
- 命名风格:键名使用 snake_case,数组以 [] 标示复数字段;保留名与枚举在 Schema 中显式声明。
- 冲突名强制:T_fil 与 T_trans 不可混用;n 与 n_eff 严格区分;任何公式内禁用中文。
VIII. 机器可读与验证接口(概览)
- Schema 与 Lint:本卷提供 dataset_card.schema.json 与 lint_rules.yaml 的最小集合,覆盖必填/类型/正则/依赖关系。
- 实现绑定要点:
- see 字段采用 "卷名 vX.Y:锚点" 写法(如 "EFT.WP.Core.Equations v1.1:S20-1");
- export_manifest 必含 version 与 references[];
- 校验函数需支持维度守恒(check_dim)与路径/测度字段联检。
IX. 质量、可复现与审计
- 质量门:对照 Ch.12 的质量与基线要求,给出门槛与覆盖率指标;
- 可复现:数据来源、清洗步骤、随机性控制、环境与依赖必须可重放;
- 审计轨:版本化、引用锚点与计量口径在导出物中可追溯。
X. 使用与维护
- 使用:数据发布前,完成卡片与校验并随数据包一同发布;对外材料仅引用稳定线版本(例如 v1.*)。
- 维护:当字段口径或依赖条目更新时,按本卷 Ch.14 的版本化策略发布新版本,并在导出清单中反映引用变化。
版权与许可(CC BY 4.0)
版权声明:除另有说明外,《能量丝理论》(含文本、图表、插图、符号与公式)的著作权由作者(“屠广林”先生)享有。
许可方式:本作品采用 Creative Commons 署名 4.0 国际许可协议(CC BY 4.0)进行许可;在注明作者与来源的前提下,允许为商业或非商业目的进行复制、转载、节选、改编与再分发。
署名格式(建议):作者:“屠广林”;作品:《能量丝理论》;来源:energyfilament.org;许可证:CC BY 4.0。
首次发布: 2025-11-11|当前版本:v5.1
协议链接:https://creativecommons.org/licenses/by/4.0/