目录 / 文档-技术白皮书 / 43-EFT.WP.Data.DatasetCards v1.0
I. 章节目的与范围
的语义、触发条件与约束,覆盖伦理与合规、血缘、传感器画像、拓展计量、路径改正、扩展质量指标与分发增强等;存在即校验,不存在不报错;命名一律 snake_case,引用采用“卷名+版本+锚点”。 可选扩展字段定义II. 分层与触发原则
- 可选(Optional):当场景需要更高可审计性/可复现性/合规透明度时启用;若启用,需满足本章的类型/正则/依赖约束并通过 Lint。
- 跨卷依赖:数据契约与导出遵循《Core.DataSpec v1.0》;计量与单位遵循《Core.Metrology v1.0》;到达时/路径量遵循《Core.Equations v1.1》。
III. 可选扩展字段总表
键名 | 类型 | 约束/正则 | 典型适用情形 | 交叉引用/锚点 |
|---|---|---|---|---|
lineage | string[] | dataset_id@version 列表 | 需要血缘追踪与审计轨 | 《Core.DataSpec v1.0》发布/组织。 |
related_artifacts | string[] | 可解析 URI/路径 | 绑定脚本、配置、基线模型 | 导出清单 references[] 一致化。 |
sensor_profile | object | schema(见本章片段) | 物理传感/台站/通道信息 | 方法/计量系卷。 |
privacy | object | policy/enum | 涉及 PII/敏感信息 | DataSpec 合规口径。 |
ethics | object | policy/enum | 伦理披露与使用限制 | 发行策略一致化。 |
uncertainty | object | schema(误差预算/传播) | 存在测量或推断不确定度 | 《Core.Metrology v1.0》《Core.Errors v1.0》。 |
path_corrections | object | schema(介质/线路改正) | 路径依赖量需改正时 | 《Metrology.PathCorrection v1.0》。 |
timebase_sync | object | schema(时基与同步) | 跨平台时频同步/切换 | 《Metrology.TimeBase/Sync v1.0》。 |
distribution | object | mirrors/shards/limits | 高可用分发与镜像策略 | 《Core.DataSpec v1.0》导出策略。 |
notes | string | — | 附加说明(非规范性) | — |
IV. 字段规范与示例
1) lineage
- 语义:上游数据集清单,记录为 dataset_id@version。
- 约束:每项可解析;稳定引用仅指向稳定线版本(推荐 v1.*)。
- 示例:
- lineage:
- - "eift.obs.sky_survey@v1.2"
- - "eift.sim.noise_bank@v1.0"
2) related_artifacts
- 语义:与数据集强关联的脚本、配置、基线模型等。
- 约束:URI/相对路径可解析;导出物在 export_manifest.artifacts[] 中出现并具 sha256。
- 示例:
- related_artifacts:
- - "scripts/preprocess_v2.py"
- - "configs/card_lint.yaml"
- - "baselines/frb_cls_v1.onnx"
3) sensor_profile
- 语义:传感器/阵列/通道画像与标定。
- 结构:
- sensor_profile:
- instruments: [{name:"LOFAR", station:"DE601"}]
- channels: [{id:"LBA-110", fs_hz: 195312.5, bw_hz: 3.9e6, pol:"XY"}]
- calibration: {method:"noise-diode", date:"2025-06-01"}
- 依赖:与方法/计量系卷保持一致。
4) privacy / ethics
- 语义:隐私策略、脱敏方法、伦理披露与使用限制。
- 约束:策略枚举与可追溯说明;对外口径与 DataSpec 保持一致。
- 示例:
- privacy:
- policy: "no-PII"
- deidentification: ["hash-id","mask-location"]
- ethics:
- intended_use: ["academic","benchmark"]
- restrictions: ["no_biometric_identification"]
5) uncertainty
- 语义:误差项、传播与合成规则;系统/随机分栏。
- 结构:
- uncertainty:
- components:
- - {name:"cal_gain", type:"systematic", value:0.8, unit:"%", method:"lab"}
- - {name:"thermal", type:"random", value:2.1, unit:"K", method:"propagate"}
- combine: "rss"
- coverage: "k=2"
- 依赖:量纲/单位与误差预算流程。
6) path_corrections(路径改正)
- 语义:对路径依赖量(如 T_arr)施加介质/线路改正与不确定度分配。
- 结构:
- path_corrections:
- models: ["iono","troposphere","instrumental"]
- parameters: {pwv_mm: 6.0, tec: 8.5}
- uncertainty: {iono:0.7e-9, tropo:0.3e-9, instr:0.2e-9}
- see:
- - "EFT.WP.Metrology.PathCorrection v1.0:MODEL"
- - "EFT.WP.Core.Equations v1.1:S20-1"
- 依赖:路径改正/到达时锚点。
7) timebase_sync(时基与同步)
- 语义:跨平台时基校准、同步策略与切换门限。
- 结构:
- timebase_sync:
- references: ["GPSDO","Rb-clock"]
- drift_ppb_max: 5
- switchover: {threshold_ppb: 10, holdover_s: 1800}
- audits: ["TIE","MTIE"]
- see:
- - "EFT.WP.Metrology.TimeBase v1.0:CAL"
- - "EFT.WP.Metrology.Sync v1.0:SWITCH"
- 依赖:时基/同步卷。
8) distribution(分发增强)
- 语义:镜像、分片、速率限制与地区合规。
- 结构:
- distribution:
- mirrors: ["https://mirror-a.example/datasets/foo/","s3://bucket/foo/"]
- shards: [{path:"train-000.tgz", bytes:134217728}, {path:"train-001.tgz", bytes:134217728}]
- rate_limit: {mbps: 50}
- 依赖:导出策略与清单一致。
V. 计量与路径依赖的一致性要求(适用于启用相关扩展时)
- 任何涉及 T_arr 的条目,必须在卡片中登记 delta_form、path="gamma(ell)"、measure="d ell",并通过 check_dim;两种等价表达并存:
- T_arr = ( 1 / c_ref ) * ( ∫ n_eff d ell )
- T_arr = ( ∫ ( n_eff / c_ref ) d ell )。
- 公式内禁用中文;内联符号一律用反引号;含分式/积分/复合算符必须加括号。
VI. 机器可读 Schema 片段(规范性)
# I15-5 Optional Extensions (excerpt)
properties:
lineage:
type: array
items: {type: string, pattern: "^[a-z0-9_\\-\\.]+@v\\d+\\.\\d+(\\.\\d+)?$"}
related_artifacts:
type: array
items: {type: string, minLength: 1}
sensor_profile:
type: object
properties:
instruments: {type: array, items: {type: object}}
channels: {type: array, items: {type: object, properties:{id:{type:string}, fs_hz:{type:number}, bw_hz:{type:number}, pol:{type:string}}}}
calibration: {type: object}
privacy:
type: object
properties: {policy:{type:string}, deidentification:{type:array, items:{type:string}}}
ethics:
type: object
properties: {intended_use:{type:array, items:{type:string}}, restrictions:{type:array, items:{type:string}}}
uncertainty:
type: object
properties:
components: {type: array}
combine: {type: string, enum: ["rss","linear","bayesian"]}
coverage: {type: string}
path_corrections:
type: object
properties:
models: {type: array, items:{type:string}}
parameters: {type: object}
uncertainty: {type: object}
see: {type: array, items:{type:string, pattern:"^[^:]+ v\\d+\\.\\d+:[A-Z].+$"}}
timebase_sync:
type: object
properties:
references: {type: array, items:{type:string}}
drift_ppb_max: {type: number}
switchover: {type: object, properties:{threshold_ppb:{type:number}, holdover_s:{type:number}}}
audits: {type: array, items:{type:string}}
distribution:
type: object
properties:
mirrors: {type: array, items:{type:string}}
shards: {type: array, items:{type: object, properties:{path:{type:string}, bytes:{type:integer}}}}
rate_limit: {type: object, properties:{mbps:{type:number}}}
see[] 与导出清单中的 references[] 必须采用 "卷名 vX.Y:锚点" 固定格式。VII. 与导出清单的耦合(export_manifest 补充)
export_manifest:
references:
- "EFT.WP.Core.DataSpec v1.0:EXPORT"
- "EFT.WP.Core.Equations v1.1:S20-1"
- "EFT.WP.Metrology.PathCorrection v1.0:MODEL"
在 references[] 体现。 必须所有在本章启用的扩展字段,若引入跨卷依赖,VIII. 本章合规自检
- 若启用任一扩展字段,则对应 schema/正则与依赖锚点完整,且通过 Lint。
- see[]/references[] 采用“卷名+版本+锚点”,不使用短码或省略版本。
- 涉及 T_arr 的条目补足 delta_form、path、measure 并通过 check_dim;路径改正与时基同步引用对应计量条目。
- 数学表达遵循反引号/括号/禁用中文规则;T_fil/T_trans、n/n_eff 不混用。
版权与许可(CC BY 4.0)
版权声明:除另有说明外,《能量丝理论》(含文本、图表、插图、符号与公式)的著作权由作者(“屠广林”先生)享有。
许可方式:本作品采用 Creative Commons 署名 4.0 国际许可协议(CC BY 4.0)进行许可;在注明作者与来源的前提下,允许为商业或非商业目的进行复制、转载、节选、改编与再分发。
署名格式(建议):作者:“屠广林”;作品:《能量丝理论》;来源:energyfilament.org;许可证:CC BY 4.0。
首次发布: 2025-11-11|当前版本:v5.1
协议链接:https://creativecommons.org/licenses/by/4.0/