目录 / 文档-技术白皮书 / 43-EFT.WP.Data.DatasetCards v1.0
I. 章节目的与范围
固化训练/验证/测试切分的定义、比例与一致性约束;规范分发清单、镜像与分片策略、完整性校验与速率/区域合规;所有键名使用 snake_case,跨卷引用采用“卷名+版本+锚点”。II. 术语与依赖
- 术语来源:遵循《EFT.WP.Core.Terms v1.0》,本章仅增量定义切分与分发相关字段。
- 依赖卷:数据契约/导出与工件组织:《Core.DataSpec v1.0》;计量与单位/量纲校核:《Core.Metrology v1.0》;清洗与采样约束见第6、7章;引用锚点与版本携带遵循《引用与交叉引用规范 v0.1》。
III. 字段与结构(规范性)
splits:
train: {count: <int>, ratio: <0..1>}
validation: {count: <int>, ratio: <0..1>}
test: {count: <int>, ratio: <0..1>}
policy:
leakage_guard: ["per-object","per-timewindow"] # 防泄漏粒度
stratify_by: ["class","region","snr_bin"] # 与 sampling.strata 对齐
freeze_indices: true # 索引冻结以确保可复现
audit:
coverage: {by:"class", report:true}
leakage: {cross_split:"forbid"}
imbalance: {metric:"gini", threshold: 0.2}
distribution:
packaging:
format: "tgz" # tgz | zip | parquet | zarr | other
shard_bytes: 134217728 # 128 MiB 示例
layout: ["train","validation","test"]
mirrors: ["https://mirror-a.example/foo/","s3://bucket/foo/"]
rate_limit: {mbps: 50}
regional_compliance: ["EU-GDPR","CN-DSR"] # 仅示例
checksums:
package: {sha256: "<hex>"} # 顶层包校验
shards:
- {path:"train-000.tgz", sha256:"<hex>"}
- {path:"train-001.tgz", sha256:"<hex>"}
see:
- "EFT.WP.Core.DataSpec v1.0:EXPORT"
- "EFT.WP.Core.Metrology v1.0:check_dim"
(导出物与引用锚点在 export_manifest 中记录并可校验。)
IV. 切分定义与一致性约束
- 比例一致:splits.train/validation/test.ratio 之和应为 1±1e-6;sampling.rates 与之严格一致。
- 粒度防泄漏:对象级、时间窗级或序列级不得跨分割集复用;在 policy.leakage_guard[] 明示。
- 分层一致:如采用分层采样,则 stratify_by 与第6章 sampling.strata 一致;对每层记录实际占比与偏差。
- 索引冻结:发布前固定并导出切分索引(文件/行/对象ID),以保证复现实验与基线可对表。
V. 分发与工件组织
- 打包格式:优先采用可流式/并行读取格式;若为归档(tgz/zip)则提供分片与校验表。
- 镜像与速率:至少两个镜像端点;对外提供建议并发与速率限制。
- 区域合规:如数据涉隐私/地理敏感,声明可分发区域与合规依据(与 privacy/ethics 扩展一致)。
- 校验:顶层与分片均提供 sha256;建议附 SIZE 与 LASTMOD。
VI. 与质量与基线的联动
- 在 quality.gates 中设置切分质量门(覆盖率、泄漏=0、类比≤阈);
- 在 quality.coverage 中报告按类/区域/模态的覆盖与置信区间;
- 基线评测脚本需消费 splits 冻结索引以保证可比性。
VII. 计量与单位(涉及时空/频率切分时)
- 时间窗切分以 UTC 与 ISO 8601 表示(如 [t0, t1)),并在 metrology.time_standard 固化;
- 频带/采样率切分使用 Hz,带宽 bw_hz 与 f_samp 的单位一致;
- 空间切分声明坐标系与角度单位(默认为 deg,历元如 J2000)。
VIII. 导出清单与引用(规范性)
export_manifest:
version: "v1.0"
artifacts:
- {path:"splits/train.index", sha256:"..."}
- {path:"splits/validation.index", sha256:"..."}
- {path:"splits/test.index", sha256:"..."}
- {path:"packages/train-000.tgz", sha256:"..."}
- {path:"packages/train-001.tgz", sha256:"..."}
references:
- "EFT.WP.Core.DataSpec v1.0:EXPORT"
- "EFT.WP.Core.Metrology v1.0:check_dim"
(所有工件必须在导出清单中列出并可校验;引用携带卷名+版本+锚点。)
IX. 示例片段(可直接嵌入卡片)
splits:
train: {count: 12000, ratio: 0.8}
validation: {count: 1500, ratio: 0.1}
test: {count: 1500, ratio: 0.1}
policy:
leakage_guard: ["per-object","per-timewindow"]
stratify_by: ["class","snr_bin"]
freeze_indices: true
distribution:
packaging: {format:"tgz", shard_bytes:134217728, layout:["train","validation","test"]}
mirrors: ["https://mirror-a.example/datasets/foo/","s3://bucket/foo/"]
rate_limit: {mbps: 50}
checksums:
package: {sha256: "…"}
shards:
- {path:"train-000.tgz", sha256:"…"}
- {path:"train-001.tgz", sha256:"…"}
X. 本章合规自检
- splits 比例与计数一致,sampling.rates 与之对齐;泄漏审计=通过;分层偏差在阈内。
- distribution 提供镜像、分片与 sha256 校验;区域合规与 privacy/ethics 一致。
- export_manifest 已列出切分索引与包/分片并携带引用锚点;禁止短码/别名,必须带版本与锚点。
版权与许可(CC BY 4.0)
版权声明:除另有说明外,《能量丝理论》(含文本、图表、插图、符号与公式)的著作权由作者(“屠广林”先生)享有。
许可方式:本作品采用 Creative Commons 署名 4.0 国际许可协议(CC BY 4.0)进行许可;在注明作者与来源的前提下,允许为商业或非商业目的进行复制、转载、节选、改编与再分发。
署名格式(建议):作者:“屠广林”;作品:《能量丝理论》;来源:energyfilament.org;许可证:CC BY 4.0。
首次发布: 2025-11-11|当前版本:v5.1
协议链接:https://creativecommons.org/licenses/by/4.0/