目录 / 文档-技术白皮书 / 44-EFT.WP.Data.ModelCards v1.0
I. 章节目的与范围
:引用口径、冻结切分映射、采样策略对齐、污染/泄漏防控、代表性与偏差记录;确保与评测协议、质量门及计量章一致。绑定方式固化模型卡中 training_data 与数据集卡的II. 术语与依赖
- 术语来源:遵循《EFT 技术白皮书与技术备忘模板 全面清单 v0.1》,本章仅增量限定训练数据—采样绑定相关字段。
- 依赖卷:数据契约/导出《EFT.WP.Core.DataSpec v1.0》;计量与量纲校核《EFT.WP.Core.Metrology v1.0》;路径依赖表达如适用见《EFT.WP.Core.Equations v1.1》;数据事实、切分与质量门引用《EFT.WP.Data.DatasetCards v1.0》。
- 数学与符号:内联符号用反引号;含除号/积分/复合算符必须加括号;公式/符号/定义禁用中文。
III. 字段与结构(规范性)
training_data:
refs: # 数据来源(仅引用,不复制)
- "EFT.WP.Data.DatasetCards v1.0:Ch.6" # provenance & sampling
- "EFT.WP.Data.DatasetCards v1.0:Ch.11" # splits & distribution
- "EFT.WP.Data.DatasetCards v1.0:Ch.12" # quality & baselines
splits_ref: "<dataset_id@vX.Y>" # 冻结切分引用(精确到版本)
mapping: # 任务标签/本体映射(如需)
label_map: {"ext.catalog.v2:frb": "FRB", "ext.catalog.v2:rfi": "RFI"}
sampling_binding: # 与模型训练使用的采样绑定
strategy: "<random|stratified|time-based|spatial-tiles|systematic>"
strata: [{by:"class|region|snr_bin", buckets: {"A":100,"B":200}}]
weights: {class:"inverse_freq" } # 训练采样权重策略(如适用)
contamination_policy: "forbid-cross-split|allow-train-only"
leakage_guards: ["per-object","per-timewindow","per-scene"]
representativeness: # 代表性与偏差记录
target_distribution: "uniform|empirical|custom"
bias_notes: "class-long-tail; region-imbalance"
licenses: ["<license-id>"] # 与数据卡对表
notes: "引用的数据事实以数据卡为准;此处仅记录绑定与策略差异。"
see:
- "EFT.WP.Core.Metrology v1.0:check_dim"
- "EFT.WP.Data.DatasetCards v1.0:Ch.6"
- "EFT.WP.Data.DatasetCards v1.0:Ch.11"
IV. 数据引用与冻结切分
- 仅引用不复制:训练数据来源必须以“卷名 vX.Y:章/锚点”形式引用数据集卡;严禁在模型卡内复制数据事实。
- 冻结切分:splits_ref 指向具体版本的数据集与冻结索引;训练/验证/测试集不得与数据卡的冻结索引不一致。
- 版本锁定:公开报告与基线对比必须明确 dataset_id@version;如更换版本,应在模型卡中记录差异与影响范围。
V. 污染与泄漏防控
- 污染(contamination):训练中严禁使用验证/测试样本或其衍生统计量(包含归一化统计、文本提示库、增广字典等)。
- 泄漏(leakage):同一对象、相邻时间窗、同一场景(或瓦片)不得跨分割集出现;leakage_guards[] 明示粒度与策略。
- 审计:将污染/泄漏审计结果纳入 evaluation.protocol.significance 的说明与 export_manifest.artifacts[]。
VI. 采样一致性与代表性
- 对齐:training_data.sampling_binding.strategy/strata 必须与数据卡 sampling.strategy/strata 对齐;若训练侧采用重采样/重加权,须记录 weights 策略并在评测节解释其影响。
- 代表性:声明 target_distribution,报告与数据卡 coverage 的偏差;必要时在公平性节设置跨类/跨域差异阈值。
VII. 计量与单位(如涉物理量/时间/频率)
- 输入量/标签的单位由《Metrology v1.0》统一;在训练前处理与特征构建中保持与数据卡同一量纲口径;
- 涉及到达时等路径量时,记录 delta_form、路径 gamma(ell) 与测度 d ell,并通过 check_dim。
VIII. 机器可读片段(可直接嵌入)
training_data:
refs:
- "EFT.WP.Data.DatasetCards v1.0:Ch.6"
- "EFT.WP.Data.DatasetCards v1.0:Ch.11"
- "EFT.WP.Data.DatasetCards v1.0:Ch.12"
splits_ref: "eift.radio.toa-set@v1.2"
sampling_binding:
strategy: "stratified"
strata: [{by:"snr_bin", buckets:{"7-10":300,"10-20":500,"20+":700}}]
weights: {class:"inverse_freq"}
contamination_policy: "forbid-cross-split"
leakage_guards: ["per-object","per-timewindow"]
representativeness:
target_distribution: "empirical"
bias_notes: "long-tail on FRB; station-imbalance"
IX. 与评测协议、优化与超参的一致性
- 评测协议使用同一冻结切分;若训练采样与评测采样策略不同,需在 evaluation 中说明并提供显著性检验;
- 超参(批大小、学习率、权重)与采样绑定策略的耦合(如 class weights)需在 optimization/hyperparams 明确记录。
X. 导出工件与审计轨
export_manifest:
artifacts:
- {path:"data/splits/train.index", sha256:"..."}
- {path:"data/sampling_binding.yaml", sha256:"..."}
- {path:"audits/leakage_report.md", sha256:"..."}
references:
- "EFT.WP.Data.DatasetCards v1.0:Ch.11"
- "EFT.WP.Core.Metrology v1.0:check_dim"
所有与绑定/审计相关的工件必须在导出清单中列出并可校验。XI. 与路径依赖量的衔接(如适用)
当训练目标或特征涉及 T_arr 等路径量:- 登记 delta_form、path="gamma(ell)"、measure="d ell";
- 两种等价表达:T_arr = ( 1 / c_ref ) * ( ∫ n_eff d ell ) 与 T_arr = ( ∫ ( n_eff / c_ref ) d ell );
- 训练与评测使用同一口径;通过 check_dim。
XII. 本章合规自检
- refs 全部为“卷名 vX.Y:章/锚点”,splits_ref 指向具体版本并与评测一致。
- sampling_binding 与数据卡 sampling 对齐;重采样/重加权策略已记录并在评测节解释影响。
- 污染/泄漏防控策略与审计结果已落盘;leakage_guards[] 明确且通过检查。
- 涉及物理/时间/频率或路径量的字段已通过 check_dim,必要时登记 delta_form/path/measure。
- 导出清单包含绑定与审计工件及 references[],可哈希校验。
版权与许可(CC BY 4.0)
版权声明:除另有说明外,《能量丝理论》(含文本、图表、插图、符号与公式)的著作权由作者(“屠广林”先生)享有。
许可方式:本作品采用 Creative Commons 署名 4.0 国际许可协议(CC BY 4.0)进行许可;在注明作者与来源的前提下,允许为商业或非商业目的进行复制、转载、节选、改编与再分发。
署名格式(建议):作者:“屠广林”;作品:《能量丝理论》;来源:energyfilament.org;许可证:CC BY 4.0。
首次发布: 2025-11-11|当前版本:v5.1
协议链接:https://creativecommons.org/licenses/by/4.0/