目录 / 文档-技术白皮书 / 53-模型卡 Template v1.0
I. 目标与范围(Purpose & Scope)
- 规范模型训练所用数据的来源(Source)、结构与切分(Schema/Splits)、血缘(Lineage)与许可合规,确保训练/验证/测试数据与模型卡其余章节在单位/量纲、覆盖口径、版本与新鲜度上完全一致。
- 凡涉及路径量(到达时/相位),正文显式路径 gamma(ell) 与测度 d ell,数据侧记录 delta_form ∈ {general, factored};全程采用括号化统一口径,发布要求 p_dim = 1.0。
II. 输入与依赖(Inputs & Dependencies)
- 数据集卡:对齐《数据集卡》Ch.3/4/6/7/8/10/11/12 的 provenance.yaml、schema.json/contract.yaml、split.yaml/split_manifest.json、validate_report.json、report_manifest.yaml。
- 参数注册卡:对齐 freshness.policy 与 cov_group;训练使用的标定/常量必须在参数卡登记并可追溯。
- 误差预算卡:覆盖口径(k/alpha/quantile)与协方差配置(Σ、核与参数)一致。
- 管线卡:入站契约与阶段接口一致,训练/校验/导出路径与发布目录对齐。
- 引用与版本:一律“卷名 + 版本 + 锚点(P/S/M/I)”,锚点直指率 ≥ 90%,不得外链/别名。
III. 训练数据来源与许可(Sources & Licenses)
- 来源类型:instrument/system/simulator/external;在 data_refs.yaml 标注 source_id、producer、license、site、operator。
- 许可与限制:记录 license 与再分发条款;若有限制用途/地域/人群,需在模型卡首页与 API 文档同步声明。
- 时间锁定与新鲜度:clock_state="locked",|ts_start − calib.timestamp| ≤ τ_calib;过期样本隔离或标注 [Restricted]。
IV. 结构与切分对齐(Schema & Splits Alignment)
- 字段/单位/量纲:训练读取的字段与单位/量纲必须与《数据集卡》Ch.4 完全一致;缺失策略 null/缺字段 与 quality.flags 记录原因。
- 切分防泄漏:严格遵循 split.yaml 的时间/实体隔离与随机 seed;禁止跨 split 共享实体与窗口。
- 路径一致性:路径数组满足 len(gamma_ell)=len(d_ell)=len(n_eff)≥2;步长约束 Δell ≤ ( c_ref / f_s ) / max(n_eff);相位在参考窗对齐后再计算指标。
V. 采样与清洗(Sampling & Cleaning)
- 抽样策略:随机/分层/难例优先须在 data_refs.yaml 固化随机源与配额(按 batch/device/region/quality.flags 分层)。
- 清洗规则:缺失/异常/去噪/归一化在 preprocess_spec.yaml 明示;任何会改变分布的规则需在偏倚章节登记并做切片评估。
- 增强与合成(如适用):数据增强/模拟样本需标注来源、参数与比例,并独立统计在 split_manifest.json。
VI. 血缘与可追溯(Lineage & Traceability)
- Lineage DAG:raw → calibrated → derived → annotated → split → train_batch,节点/边标注 version 与 checksum,禁止环依赖。
- 事件审计:采集/清洗/切分/增强/抽样等事件写入 audit.jsonl(时间、操作者、输入哈希、变更说明、签名)。
- 复现实验:train_config.yaml 记录数据路径、版本与快照;最小重放脚本 reproduce.sh 在附录提供。
VII. 路径量统一口径(Normative Path Forms)
- 到达时(两种等价):
T_arr = ( 1 / c_ref ) * ( ∫ n_eff d ell )
T_arr = ( ∫ ( n_eff / c_ref ) d ell ) - 相位累计:
Phi = ( 2π / λ_ref ) * ( ∫ n_eff d ell )
正文显式 gamma(ell) 与 d ell;数据侧记录 delta_form;训练/评测的路径/相位口径必须与数据集卡一致。
VIII. 质量门映射(Gate Mapping)
- G1 Schema 完整:训练读取字段与契约一致;
- G2 引用合规:锚点直指率 ≥ 90%;
- G3 路径规范:gamma/measure/delta_form 齐备,步长与对齐合规;
- G4 量纲闭合:全链路 I70-dim_check 通过,p_dim = 1.0;
- G5 新鲜度:clock_state="locked"、τ_calib 合规;
- G6 覆盖口径一致:训练/评测报告使用同一 k/alpha/quantile;
- G7 协方差一致:Σ 正定并与误差预算卡配置一致;
- G8 唯一性与无环:record_id/checksum 唯一,Lineage DAG 无环。
- 任一核心门失败触发 S1–S5(量纲/新鲜度/路径/协方差/引用)即阻断训练与发布,必要时标注 [Restricted]。
IX. 机读制品(Machine-Readable Artifacts)
A. data_refs.yaml
version: "1.0.0"
datasets:
- id: "ds-core"
see:
- "Dataset Card v1.0:Ch.3"
- "Dataset Card v1.0:Ch.4"
- "Dataset Card v1.0:Ch.6"
manifest: "DS_EXPORT/manifests/report_manifest.yaml"
splits: "DS_EXPORT/splits/split_manifest.json"
license: "CC-BY-4.0"
checksum: "sha256:..."
sampling:
seed: 20250924
strategy: { stratified: ["device","region","quality.flags"] }
preprocess_spec: "configs/preprocess_spec.yaml"
B. preprocess_spec.yaml
version: "1.0.0"
missing: { numeric: "null", route_to: "quality.flags" }
normalize: { mean: "μ_train", std: "σ_train" }
path_align: { require: true, delta_form: "general", enforce_delta_ell: true }
filters:
- name: "window_guard"
rule: "drop if ts ∉ [ts_start, ts_end]"
audits: { write_to: "reports/audit.jsonl" }
C. lineage_graph.json(节选)
X. 反例与修正(Anti-Patterns & Fixes)
- 反例:T_arr = ∫ n_eff / c_ref d ell(缺括号) → 修正:括号化为统一口径。
- 反例:训练时仅给 gamma(ell),缺 d ell/delta_form → 修正:补齐并与 n_eff 等长;不合规则拒收。
- 反例:切分泄漏(实体跨 split) → 修正:按 group_by(entity) 重切并更新 split_manifest.json。
- 反例:使用过期样本或失锁时钟 → 修正:依据 freshness.policy 过滤或隔离,必要时标注 [Restricted]。
- 反例:覆盖口径在训练与评测侧不一致 → 修正:统一为单一 coverage.mode 并在清单声明。
XI. 交叉引用(Cross-References)
- 《数据集卡》:Ch.3(Provenance)、Ch.4(Schema)、Ch.6(Splits/Versioning)、Ch.7(QC Gates)、Ch.8(UQ & Cov)、Ch.11(Bench/Score)。
- 《误差预算卡》:Ch.5/Ch.6/Ch.8(协方差与覆盖)、Ch.9(阈值映射)。
- 《参数注册卡》:Ch.4/Ch.6/Ch.8/Ch.9(单位/新鲜度/协方差组/接口)。
- 《管线卡》:Ch.3/Ch.4/Ch.6/Ch.12(计算图/契约/阶段/发布)。
XII. 执行勾选清单(Checklist)
- data_refs.yaml / preprocess_spec.yaml / lineage_graph.json 就绪且与《数据集卡》清单一致。
- 路径量显式 gamma/measure/delta_form;len(path) ≥ 2、Δell 合规;相位在参考窗对齐。
- I70-dim_check 通过、p_dim = 1.0;覆盖 k/alpha/quantile 与误差卷一致。
- 切分防泄漏与许可/用途限制核验完成;audit.jsonl 记录完整。
- /validate 通过 G1–G8;不合规项按 [Restricted] 标注与处置;所有引用锚点直指率 ≥ 90%。
版权与许可(CC BY 4.0)
版权声明:除另有说明外,《能量丝理论》(含文本、图表、插图、符号与公式)的著作权由作者(“屠广林”先生)享有。
许可方式:本作品采用 Creative Commons 署名 4.0 国际许可协议(CC BY 4.0)进行许可;在注明作者与来源的前提下,允许为商业或非商业目的进行复制、转载、节选、改编与再分发。
署名格式(建议):作者:“屠广林”;作品:《能量丝理论》;来源:energyfilament.org;许可证:CC BY 4.0。
首次发布: 2025-11-11|当前版本:v5.1
协议链接:https://creativecommons.org/licenses/by/4.0/