目录 / 文档-技术白皮书 / 43-EFT.WP.Data.DatasetCards v1.0
I. 章节目的与范围
统一记录数据来源、采集方式、时空覆盖与选择偏差,固化可复现的采样策略与质量控制要求;所有条目采用 snake_case,引用使用“卷名+版本+锚点”。II. 术语与依赖
- 术语来源:通用术语遵循《Core.Terms v1.0》,本章仅增量定义与来源/采样直接相关的字段名与约束。跨卷引用必须携带版本与锚点 P/S/M/I。
- 依赖卷:数据契约与导出:《Core.DataSpec v1.0》;计量与单位/不确定度:《Core.Metrology v1.0》;到达时/路径量的口径:《Core.Equations v1.1》。
III. 字段与结构(规范性)
provenance:
collection_method: "<string>" # 采集方式(如 beamformed-array / survey / simulation)
instruments: # 仪器/台站/阵列与通道摘要
- {name:"<string>", station:"<string>", role:"<rx/tx/mixed>"}
time_coverage: "<YYYY-MM-DD..YYYY-MM-DD>" # 时间覆盖(闭区间/半开区间需明示)
spatial_coverage: "<region spec>" # 空域覆盖(RA/Dec 范围或瓦片索引)
selection_bias: "<string>" # 选择偏差口径(例:flux-limited, SNR>7)
permits: ["<license/ref>"] # 采集许可/伦理批注(如适用)
sampling:
strategy: "<random|stratified|systematic|time-based|spatial-tiles>"
strata: # 分层变量与配额(如适用)
- {by:"class", buckets:{"FRB":520,"RFI":2100,"Noise":12380}}
rates: {train:0.80, validation:0.10, test:0.10} # 与 splits 一致
seed: 12345
replacement: false
dedup_policy: "<per-scan|per-object|per-tile>"
representativeness: "<statement>"
audits: ["coverage", "leakage", "class-imbalance"]
provenance 与 sampling 为记录层对象;其导出工件与引用在 export_manifest.references[] 中体现。IV. 采集方式与来源记录
- collection_method:统一枚举(示例:beamformed-array、drift-scan、survey-aggregation、simulation)。
- instruments:至少包含名称与站点/阵列标识;涉及计量/标定者,需在可选扩展 sensor_profile 内关联标定方法与日期。
- time_coverage / spatial_coverage:采用显式区间与坐标口径,避免隐式闭开区间与投影歧义;单位/坐标系在 metrology 或本章字段内给出。
- selection_bias:以可执行判据表达(阈值/规则/白名单),并在质量评估中给出对代表性的影响说明。
V. 采样策略与实现约束
- strategy:
- random:全局均匀抽样;
- stratified:按类别/区域/信噪等分层;
- systematic:固定步长/规则抽样;
- time-based:按时间窗或周期;
- spatial-tiles:按空间瓦片。
- strata:分层变量需显式列出桶与配额,避免后验不平衡;与 quality.coverage 的类频与覆盖指标对齐。
- seed / replacement / dedup_policy:固定随机种子;是否放回抽样;去重策略(按观测、对象或瓦片)。
- audits:至少包含覆盖率、泄漏(跨 splits 的对象泄漏)、类别不平衡三项;审计结果进入 quality。
VI. 与 splits 的一致性与泄漏防控
- sampling.rates 与 splits.{train,validation,test}.ratio 必须一致,允许误差 ≤ 1e-6;
- 在对象级/序列级数据中,同一对象或相邻时间窗不得跨分割集出现(泄漏防控);
- 审计结果(覆盖、泄漏、类比)需在 quality.coverage 与 quality.gates 中固化阈值与通过标准。
VII. 计量、单位与路径依赖记录(如适用)
若来源/采样涉及路径依赖量(如 T_arr),需同时登记:- delta_form、path="gamma(ell)"、measure="d ell";
- 两种等价表达并存:
- T_arr = ( 1 / c_ref ) * ( ∫ n_eff d ell )
- T_arr = ( ∫ ( n_eff / c_ref ) d ell );
并通过量纲/单位一致性校验 check_dim。
VIII. 质量控制与代表性
- 覆盖率:报告样本数、时空覆盖、类别/模态分布与其置信区间;
- 代表性:对主要目标分布(物理类、场景、环境)进行偏差评估,并给出修正或权重方案;
- 抽样误差:在 uncertainty 扩展中登记系统/随机成分与合成规则(如 rss)。
IX. 合规与许可(如适用)
涉及人/地理敏感信息时,记录许可、脱敏策略与使用限制;与 privacy/ethics 扩展字段保持一致并在 export_manifest.references[] 体现。X. 示例片段(可直接嵌入卡片)
provenance:
collection_method: "survey-aggregation"
instruments: [{name:"LOFAR", station:"DE601", role:"rx"}]
time_coverage: "2019-01-01..2024-12-31"
spatial_coverage: "RA[120..240],Dec[-30..+30]"
selection_bias: "flux-limited, SNR>=7"
sampling:
strategy: "stratified"
strata:
- {by:"class", buckets: {"FRB": 520, "RFI": 2100, "Noise": 12380}}
rates: {train:0.80, validation:0.10, test:0.10}
seed: 1701
replacement: false
dedup_policy: "per-object"
audits: ["coverage","leakage","class-imbalance"]
(导出时在 export_manifest.references[] 添加:"EFT.WP.Core.DataSpec v1.0:EXPORT"、"EFT.WP.Core.Metrology v1.0:check_dim"、"EFT.WP.Core.Equations v1.1:S20-1"。)
XI. 本章合规自检
- provenance/sampling 字段存在且满足本章 schema;sampling.rates 与 splits 一致;泄漏审计已完成并记录。
- 所有跨卷引用采用 "卷名 vX.Y:锚点",并在 export_manifest.references[] 中体现;禁止短码与省略版本。
- 涉及路径依赖量时,已登记 delta_form、path、measure,并通过 check_dim。
版权与许可(CC BY 4.0)
版权声明:除另有说明外,《能量丝理论》(含文本、图表、插图、符号与公式)的著作权由作者(“屠广林”先生)享有。
许可方式:本作品采用 Creative Commons 署名 4.0 国际许可协议(CC BY 4.0)进行许可;在注明作者与来源的前提下,允许为商业或非商业目的进行复制、转载、节选、改编与再分发。
署名格式(建议):作者:“屠广林”;作品:《能量丝理论》;来源:energyfilament.org;许可证:CC BY 4.0。
首次发布: 2025-11-11|当前版本:v5.1
协议链接:https://creativecommons.org/licenses/by/4.0/