44-EFT.WP.Data.ModelCards v1.0 | 第8章训练数据与采样绑定

目录／文档-技术白皮书（V5.05）／ 44-EFT.WP.Data.ModelCards v1.0

第8章训练数据与采样绑定

I. 章节目的与范围

：引用口径、冻结切分映射、采样策略对齐、污染/泄漏防控、代表性与偏差记录；确保与评测协议、质量门及计量章一致。绑定方式固化模型卡中 training_data 与数据集卡的

II. 术语与依赖

术语来源：遵循《EFT 技术白皮书与技术备忘模板全面清单 v0.1》，本章仅增量限定训练数据—采样绑定相关字段。
依赖卷：数据契约/导出《EFT.WP.Core.DataSpec v1.0》；计量与量纲校核《EFT.WP.Core.Metrology v1.0》；路径依赖表达如适用见《EFT.WP.Core.Equations v1.1》；数据事实、切分与质量门引用《EFT.WP.Data.DatasetCards v1.0》。
数学与符号：内联符号用反引号；含除号/积分/复合算符必须加括号；公式/符号/定义禁用中文。

III. 字段与结构（规范性）

training_data:

refs: # 数据来源（仅引用，不复制）

- "EFT.WP.Data.DatasetCards v1.0:Ch.6" # provenance & sampling

- "EFT.WP.Data.DatasetCards v1.0:Ch.11" # splits & distribution

- "EFT.WP.Data.DatasetCards v1.0:Ch.12" # quality & baselines

splits_ref: "<dataset_id@vX.Y>" # 冻结切分引用（精确到版本）

mapping: # 任务标签/本体映射（如需）

label_map: {"ext.catalog.v2:frb": "FRB", "ext.catalog.v2:rfi": "RFI"}

sampling_binding: # 与模型训练使用的采样绑定

strategy: "<random|stratified|time-based|spatial-tiles|systematic>"

strata: [{by:"class|region|snr_bin", buckets: {"A":100,"B":200}}]

weights: {class:"inverse_freq" } # 训练采样权重策略（如适用）

contamination_policy: "forbid-cross-split|allow-train-only"

leakage_guards: ["per-object","per-timewindow","per-scene"]

representativeness: # 代表性与偏差记录

target_distribution: "uniform|empirical|custom"

bias_notes: "class-long-tail; region-imbalance"

licenses: ["<license-id>"] # 与数据卡对表

notes: "引用的数据事实以数据卡为准；此处仅记录绑定与策略差异。"

see:

- "EFT.WP.Core.Metrology v1.0:check_dim"

- "EFT.WP.Data.DatasetCards v1.0:Ch.6"

- "EFT.WP.Data.DatasetCards v1.0:Ch.11"

IV. 数据引用与冻结切分

仅引用不复制：训练数据来源必须以“卷名 vX.Y:章/锚点”形式引用数据集卡；严禁在模型卡内复制数据事实。
冻结切分：splits_ref 指向具体版本的数据集与冻结索引；训练/验证/测试集不得与数据卡的冻结索引不一致。
版本锁定：公开报告与基线对比必须明确 dataset_id@version；如更换版本，应在模型卡中记录差异与影响范围。

V. 污染与泄漏防控

污染（contamination）：训练中严禁使用验证/测试样本或其衍生统计量（包含归一化统计、文本提示库、增广字典等）。
泄漏（leakage）：同一对象、相邻时间窗、同一场景（或瓦片）不得跨分割集出现；leakage_guards[] 明示粒度与策略。
审计：将污染/泄漏审计结果纳入 evaluation.protocol.significance 的说明与 export_manifest.artifacts[]。

VI. 采样一致性与代表性

对齐：training_data.sampling_binding.strategy/strata 必须与数据卡 sampling.strategy/strata 对齐；若训练侧采用重采样/重加权，须记录 weights 策略并在评测节解释其影响。
代表性：声明 target_distribution，报告与数据卡 coverage 的偏差；必要时在公平性节设置跨类/跨域差异阈值。

VII. 计量与单位（如涉物理量/时间/频率）

输入量/标签的单位由《Metrology v1.0》统一；在训练前处理与特征构建中保持与数据卡同一量纲口径；
涉及到达时等路径量时，记录 delta_form、路径 gamma(ell) 与测度 d ell，并通过 check_dim。

VIII. 机器可读片段（可直接嵌入）

training_data:

refs:

- "EFT.WP.Data.DatasetCards v1.0:Ch.6"

- "EFT.WP.Data.DatasetCards v1.0:Ch.11"

- "EFT.WP.Data.DatasetCards v1.0:Ch.12"

splits_ref: "eift.radio.toa-set@v1.2"

sampling_binding:

strategy: "stratified"

strata: [{by:"snr_bin", buckets:{"7-10":300,"10-20":500,"20+":700}}]

weights: {class:"inverse_freq"}

contamination_policy: "forbid-cross-split"

leakage_guards: ["per-object","per-timewindow"]

representativeness:

target_distribution: "empirical"

bias_notes: "long-tail on FRB; station-imbalance"

IX. 与评测协议、优化与超参的一致性

评测协议使用同一冻结切分；若训练采样与评测采样策略不同，需在 evaluation 中说明并提供显著性检验；
超参（批大小、学习率、权重）与采样绑定策略的耦合（如 class weights）需在 optimization/hyperparams 明确记录。

X. 导出工件与审计轨

export_manifest:

artifacts:

- {path:"data/splits/train.index", sha256:"..."}

- {path:"data/sampling_binding.yaml", sha256:"..."}

- {path:"audits/leakage_report.md", sha256:"..."}

references:

- "EFT.WP.Data.DatasetCards v1.0:Ch.11"

- "EFT.WP.Core.Metrology v1.0:check_dim"

所有与绑定/审计相关的工件必须在导出清单中列出并可校验。

XI. 与路径依赖量的衔接（如适用）

当训练目标或特征涉及 T_arr 等路径量：

登记 delta_form、path="gamma(ell)"、measure="d ell"；
两种等价表达：T_arr = ( 1 / c_ref ) * ( ∫ n_eff d ell ) 与 T_arr = ( ∫ ( n_eff / c_ref ) d ell )；
训练与评测使用同一口径；通过 check_dim。

XII. 本章合规自检

refs 全部为“卷名 vX.Y:章/锚点”，splits_ref 指向具体版本并与评测一致。
sampling_binding 与数据卡 sampling 对齐；重采样/重加权策略已记录并在评测节解释影响。
污染/泄漏防控策略与审计结果已落盘；leakage_guards[] 明确且通过检查。
涉及物理/时间/频率或路径量的字段已通过 check_dim，必要时登记 delta_form/path/measure。
导出清单包含绑定与审计工件及 references[]，可哈希校验。

版权与许可：除另有说明外，《能量丝理论》（含文本、图表、插图、符号与公式）的著作权由作者（屠广林）享有。
许可方式（CC BY 4.0）：在注明作者与来源的前提下，允许复制、转载、节选、改编与再分发。
署名格式（建议）：作者：屠广林｜作品：《能量丝理论》｜来源：energyfilament.org｜许可证：CC BY 4.0
验证召集： 作者独立自费、无雇主无资助；下一阶段将优先在最愿意公开讨论、公开复现、公开挑错的环境中推进落地，不限国家。欢迎各国媒体与同行抓住窗口组织验证，并与我们联系。
版本信息： 首次发布：2025-11-11 ｜当前版本：v6.0+5.05