目录文档-技术白皮书43-EFT.WP.Data.DatasetCards v1.0

第6章 数据来源与采样


I. 章节目的与范围

统一记录数据来源、采集方式、时空覆盖与选择偏差,固化可复现的采样策略与质量控制要求;所有条目采用 snake_case,引用使用“卷名+版本+锚点”。

II. 术语与依赖


III. 字段与结构(规范性)

provenance:

collection_method: "<string>" # 采集方式(如 beamformed-array / survey / simulation)

instruments: # 仪器/台站/阵列与通道摘要

- {name:"<string>", station:"<string>", role:"<rx/tx/mixed>"}

time_coverage: "<YYYY-MM-DD..YYYY-MM-DD>" # 时间覆盖(闭区间/半开区间需明示)

spatial_coverage: "<region spec>" # 空域覆盖(RA/Dec 范围或瓦片索引)

selection_bias: "<string>" # 选择偏差口径(例:flux-limited, SNR>7)

permits: ["<license/ref>"] # 采集许可/伦理批注(如适用)

sampling:

strategy: "<random|stratified|systematic|time-based|spatial-tiles>"

strata: # 分层变量与配额(如适用)

- {by:"class", buckets:{"FRB":520,"RFI":2100,"Noise":12380}}

rates: {train:0.80, validation:0.10, test:0.10} # 与 splits 一致

seed: 12345

replacement: false

dedup_policy: "<per-scan|per-object|per-tile>"

representativeness: "<statement>"

audits: ["coverage", "leakage", "class-imbalance"]

provenance 与 sampling 为记录层对象;其导出工件与引用在 export_manifest.references[] 中体现。

IV. 采集方式与来源记录


V. 采样策略与实现约束

  1. strategy
    • random:全局均匀抽样;
    • stratified:按类别/区域/信噪等分层;
    • systematic:固定步长/规则抽样;
    • time-based:按时间窗或周期;
    • spatial-tiles:按空间瓦片。
  2. strata:分层变量需显式列出桶与配额,避免后验不平衡;与 quality.coverage 的类频与覆盖指标对齐。
  3. seed / replacement / dedup_policy:固定随机种子;是否放回抽样;去重策略(按观测、对象或瓦片)。
  4. audits:至少包含覆盖率、泄漏(跨 splits 的对象泄漏)、类别不平衡三项;审计结果进入 quality。

VI. 与 splits 的一致性与泄漏防控


VII. 计量、单位与路径依赖记录(如适用)

若来源/采样涉及路径依赖量(如 T_arr),需同时登记:
  1. delta_form、path="gamma(ell)"、measure="d ell";
  2. 两种等价表达并存:
    • T_arr = ( 1 / c_ref ) * ( ∫ n_eff d ell )
    • T_arr = ( ∫ ( n_eff / c_ref ) d ell );
      并通过量纲/单位一致性校验 check_dim。

VIII. 质量控制与代表性


IX. 合规与许可(如适用)

涉及人/地理敏感信息时,记录许可、脱敏策略与使用限制;与 privacy/ethics 扩展字段保持一致并在 export_manifest.references[] 体现。

X. 示例片段(可直接嵌入卡片)

provenance:

collection_method: "survey-aggregation"

instruments: [{name:"LOFAR", station:"DE601", role:"rx"}]

time_coverage: "2019-01-01..2024-12-31"

spatial_coverage: "RA[120..240],Dec[-30..+30]"

selection_bias: "flux-limited, SNR>=7"

sampling:

strategy: "stratified"

strata:

- {by:"class", buckets: {"FRB": 520, "RFI": 2100, "Noise": 12380}}

rates: {train:0.80, validation:0.10, test:0.10}

seed: 1701

replacement: false

dedup_policy: "per-object"

audits: ["coverage","leakage","class-imbalance"]

(导出时在 export_manifest.references[] 添加:"EFT.WP.Core.DataSpec v1.0:EXPORT"、"EFT.WP.Core.Metrology v1.0:check_dim"、"EFT.WP.Core.Equations v1.1:S20-1"。)


XI. 本章合规自检


版权与许可(CC BY 4.0)

版权声明:除另有说明外,《能量丝理论》(含文本、图表、插图、符号与公式)的著作权由作者(“屠广林”先生)享有。
许可方式:本作品采用 Creative Commons 署名 4.0 国际许可协议(CC BY 4.0)进行许可;在注明作者与来源的前提下,允许为商业或非商业目的进行复制、转载、节选、改编与再分发。
署名格式(建议):作者:“屠广林”;作品:《能量丝理论》;来源:energyfilament.org;许可证:CC BY 4.0。

首次发布: 2025-11-11|当前版本:v5.1
协议链接:https://creativecommons.org/licenses/by/4.0/