53-模型卡 Template v1.0 | 第5章训练数据与血缘

目录／文档-技术白皮书（V5.05）／ 53-模型卡 Template v1.0

第5章训练数据与血缘

I. 目标与范围（Purpose & Scope）

规范模型训练所用数据的来源（Source）、结构与切分（Schema/Splits）、血缘（Lineage）与许可合规，确保训练/验证/测试数据与模型卡其余章节在单位/量纲、覆盖口径、版本与新鲜度上完全一致。
凡涉及路径量（到达时/相位），正文显式路径 gamma(ell) 与测度 d ell，数据侧记录 delta_form ∈ {general, factored}；全程采用括号化统一口径，发布要求 p_dim = 1.0。

II. 输入与依赖（Inputs & Dependencies）

数据集卡：对齐《数据集卡》Ch.3/4/6/7/8/10/11/12 的 provenance.yaml、schema.json/contract.yaml、split.yaml/split_manifest.json、validate_report.json、report_manifest.yaml。
参数注册卡：对齐 freshness.policy 与 cov_group；训练使用的标定/常量必须在参数卡登记并可追溯。
误差预算卡：覆盖口径（k/alpha/quantile）与协方差配置（Σ、核与参数）一致。
管线卡：入站契约与阶段接口一致，训练/校验/导出路径与发布目录对齐。
引用与版本：一律“卷名 + 版本 + 锚点（P/S/M/I）”，锚点直指率 ≥ 90%，不得外链/别名。

III. 训练数据来源与许可（Sources & Licenses）

来源类型：instrument/system/simulator/external；在 data_refs.yaml 标注 source_id、producer、license、site、operator。
许可与限制：记录 license 与再分发条款；若有限制用途/地域/人群，需在模型卡首页与 API 文档同步声明。
时间锁定与新鲜度：clock_state="locked"，|ts_start − calib.timestamp| ≤ τ_calib；过期样本隔离或标注 [Restricted]。

IV. 结构与切分对齐（Schema & Splits Alignment）

字段/单位/量纲：训练读取的字段与单位/量纲必须与《数据集卡》Ch.4 完全一致；缺失策略 null/缺字段与 quality.flags 记录原因。
切分防泄漏：严格遵循 split.yaml 的时间/实体隔离与随机 seed；禁止跨 split 共享实体与窗口。
路径一致性：路径数组满足 len(gamma_ell)=len(d_ell)=len(n_eff)≥2；步长约束 Δell ≤ ( c_ref / f_s ) / max(n_eff)；相位在参考窗对齐后再计算指标。

V. 采样与清洗（Sampling & Cleaning）

抽样策略：随机/分层/难例优先须在 data_refs.yaml 固化随机源与配额（按 batch/device/region/quality.flags 分层）。
清洗规则：缺失/异常/去噪/归一化在 preprocess_spec.yaml 明示；任何会改变分布的规则需在偏倚章节登记并做切片评估。
增强与合成（如适用）：数据增强/模拟样本需标注来源、参数与比例，并独立统计在 split_manifest.json。

VI. 血缘与可追溯（Lineage & Traceability）

Lineage DAG：raw → calibrated → derived → annotated → split → train_batch，节点/边标注 version 与 checksum，禁止环依赖。
事件审计：采集/清洗/切分/增强/抽样等事件写入 audit.jsonl（时间、操作者、输入哈希、变更说明、签名）。
复现实验：train_config.yaml 记录数据路径、版本与快照；最小重放脚本 reproduce.sh 在附录提供。

VII. 路径量统一口径（Normative Path Forms）

到达时（两种等价）：
T_arr = ( 1 / c_ref ) * ( ∫ n_eff d ell )
T_arr = ( ∫ ( n_eff / c_ref ) d ell )
相位累计：
Phi = ( 2π / λ_ref ) * ( ∫ n_eff d ell )

正文显式 gamma(ell) 与 d ell；数据侧记录 delta_form；训练/评测的路径/相位口径必须与数据集卡一致。

VIII. 质量门映射（Gate Mapping）

G1 Schema 完整：训练读取字段与契约一致；
G2 引用合规：锚点直指率 ≥ 90%；
G3 路径规范：gamma/measure/delta_form 齐备，步长与对齐合规；
G4 量纲闭合：全链路 I70-dim_check 通过，p_dim = 1.0；
G5 新鲜度：clock_state="locked"、τ_calib 合规；
G6 覆盖口径一致：训练/评测报告使用同一 k/alpha/quantile；
G7 协方差一致：Σ 正定并与误差预算卡配置一致；
G8 唯一性与无环：record_id/checksum 唯一，Lineage DAG 无环。
任一核心门失败触发 S1–S5（量纲/新鲜度/路径/协方差/引用）即阻断训练与发布，必要时标注 [Restricted]。

IX. 机读制品（Machine-Readable Artifacts）
A. data_refs.yaml

version: "1.0.0"

datasets:

- id: "ds-core"

see:

- "Dataset Card v1.0:Ch.3"

- "Dataset Card v1.0:Ch.4"

- "Dataset Card v1.0:Ch.6"

manifest: "DS_EXPORT/manifests/report_manifest.yaml"

splits: "DS_EXPORT/splits/split_manifest.json"

license: "CC-BY-4.0"

checksum: "sha256:..."

sampling:

seed: 20250924

strategy: { stratified: ["device","region","quality.flags"] }

preprocess_spec: "configs/preprocess_spec.yaml"

B. preprocess_spec.yaml

version: "1.0.0"

missing: { numeric: "null", route_to: "quality.flags" }

normalize: { mean: "μ_train", std: "σ_train" }

path_align: { require: true, delta_form: "general", enforce_delta_ell: true }

filters:

- name: "window_guard"

rule: "drop if ts ∉ [ts_start, ts_end]"

audits: { write_to: "reports/audit.jsonl" }

C. lineage_graph.json（节选）

JSON json

{
  "nodes": [
    { "id": "RAW-telemetry", "version": "1.0.0", "checksum": "sha256:..." },
    { "id": "CAL-telemetry", "version": "1.0.1", "checksum": "sha256:..." },
    { "id": "DER-train", "version": "1.0.0", "checksum": "sha256:..." }
  ],
  "edges": [
    { "from": "RAW-telemetry", "to": "CAL-telemetry", "type": "calibrate" },
    { "from": "CAL-telemetry", "to": "DER-train", "type": "derive" }
  ]
}

X. 反例与修正（Anti-Patterns & Fixes）

反例：T_arr = ∫ n_eff / c_ref d ell（缺括号） → 修正：括号化为统一口径。
反例：训练时仅给 gamma(ell)，缺 d ell/delta_form → 修正：补齐并与 n_eff 等长；不合规则拒收。
反例：切分泄漏（实体跨 split） → 修正：按 group_by(entity) 重切并更新 split_manifest.json。
反例：使用过期样本或失锁时钟 → 修正：依据 freshness.policy 过滤或隔离，必要时标注 [Restricted]。
反例：覆盖口径在训练与评测侧不一致 → 修正：统一为单一 coverage.mode 并在清单声明。

XI. 交叉引用（Cross-References）

《数据集卡》：Ch.3（Provenance）、Ch.4（Schema）、Ch.6（Splits/Versioning）、Ch.7（QC Gates）、Ch.8（UQ & Cov）、Ch.11（Bench/Score）。
《误差预算卡》：Ch.5/Ch.6/Ch.8（协方差与覆盖）、Ch.9（阈值映射）。
《参数注册卡》：Ch.4/Ch.6/Ch.8/Ch.9（单位/新鲜度/协方差组/接口）。
《管线卡》：Ch.3/Ch.4/Ch.6/Ch.12（计算图/契约/阶段/发布）。

XII. 执行勾选清单（Checklist）

data_refs.yaml / preprocess_spec.yaml / lineage_graph.json 就绪且与《数据集卡》清单一致。
路径量显式 gamma/measure/delta_form；len(path) ≥ 2、Δell 合规；相位在参考窗对齐。
I70-dim_check 通过、p_dim = 1.0；覆盖 k/alpha/quantile 与误差卷一致。
切分防泄漏与许可/用途限制核验完成；audit.jsonl 记录完整。
/validate 通过 G1–G8；不合规项按 [Restricted] 标注与处置；所有引用锚点直指率 ≥ 90%。

版权与许可：除另有说明外，《能量丝理论》（含文本、图表、插图、符号与公式）的著作权由作者（屠广林）享有。
许可方式（CC BY 4.0）：在注明作者与来源的前提下，允许复制、转载、节选、改编与再分发。
署名格式（建议）：作者：屠广林｜作品：《能量丝理论》｜来源：energyfilament.org｜许可证：CC BY 4.0
验证召集： 作者独立自费、无雇主无资助；下一阶段将优先在最愿意公开讨论、公开复现、公开挑错的环境中推进落地，不限国家。欢迎各国媒体与同行抓住窗口组织验证，并与我们联系。
版本信息： 首次发布：2025-11-11 ｜当前版本：v6.0+5.05