53-模型卡 Template v1.0 | 第6章训练协议与超参数

目录／文档-技术白皮书（V5.05）／ 53-模型卡 Template v1.0

第6章训练协议与超参数

I. 目标与范围（Purpose & Scope）

给出模型**训练协议（Training Protocol）与超参数（Hyperparameters）**的规范化说明，覆盖数据流与批次、优化器与学习率调度、正则与早停、混合精度与分布式、可复现与审计、在线评测与检查点、超参搜索与约束。
凡涉及路径量（到达时/相位），正文显式 gamma(ell) 与测度 d ell，数据侧记录 delta_form ∈ {general, factored}；所有表达式一律括号化，发布要求 p_dim = 1.0。

II. 前置条件与依赖（Prerequisites & Inputs）

数据对齐：使用《数据集卡》Ch.3/Ch.4/Ch.6/Ch.7 的 provenance/schema/splits/QC，路径数组满足 len(gamma_ell)=len(d_ell)=len(n_eff)≥2。
参数与计量：与《参数注册卡》的一致新鲜度策略 freshness.policy 与 cov_group；与《误差预算卡》一致的覆盖与协方差口径（k/alpha/quantile、Σ PD）。
时基与同步：clock_state="locked"、|ts_start − calib.timestamp| ≤ τ_calib；f_s ≥ 2·f_max。
引用与版本：一律“卷名 + 版本 + 锚点（P/S/M/I）”，锚点直指率 ≥ 90%。

III. 训练数据流水线（Data Pipeline）

读取与缓存：顺序/随机/分层采样；微批 micro-batch 支持。
预处理：标准化 x' = ( x − μ ) / σ、掩膜 x'' = x' ⊙ m、路径对齐 align(gamma_ell, d_ell, n_eff)。
增强（可选）：记录增强算子/强度/比例；如改变分布，需在偏倚章节登记并做切片评估。
批组织：B（批大小）、A（梯度累积步）、T（时间窗）与 D（特征维）在清单固定。

IV. 优化器与调度（Optimizer & Schedules）

优化器：adamw | sgd | lion | adagrad ...，示例：adamw(lr=3.0e-4, weight_decay=0.01, β1=0.9, β2=0.999)。
学习率（LR）：warmup → cosine 或 step | exponential；最大/最小 LR、热重启周期在清单固定。
动量/权重衰减：动量/weight_decay 与 bias/Norm 排除策略显式。
损失与正则：
- 总目标：L(θ) = E[ ℓ(f_θ(x), y) ] + λ R(θ)；ℓ ∈ {CE, MSE, Huber}，R(θ) ∈ {‖θ‖_2^2, TV, KL}。
- 多任务：L = ∑_k w_k L_k，w_k 固化于清单；类别不平衡可用 class_weight 或 focal。

V. 训练控制（Training Control）

轮次与步数：epochs、max_steps、评测间隔 eval_every。
早停（Early Stop）：监控 metric*（如 val/MAE、val/AUC、val/r_phi），容忍 patience、最小改进 min_delta。
检查点（Checkpoint）：按 best/last/every N steps 策略保存；包含 state_dict/optimizer/scaler/epoch/seed/checksum。
混合精度与裁剪：amp{fp16|bf16}、grad_clip{norm,max}。
分布式：DDP | ZeRO | FSDP 配置、同步 BN、梯度压缩与通信后端；确保幂等恢复与确定性。

VI. 可复现与审计（Reproducibility & Audit）

随机源固定：seed、库级 deterministic 开关、数据打乱种子、初始化策略。
环境快照：框架/编译器/驱动/硬件（CPU/GPU/内存/存储/时钟源）。
审计事件：audit.jsonl 记录训练起止、超参、数据快照校验和、最优指标、签名。
重现实验：提供 reproduce.sh 与 Makefile 片段，最小命令可从零还原 best.ckpt 与 eval_report。

VII. 在线评测与日志（Online Eval & Logging）

评测集：val/test/holdout/slice_k 与《数据集卡》一致；防泄漏规则严格执行。
指标与区间：同时报告点估计与区间（k/alpha/quantile），并输出收敛曲线。
日志：标量、直方、混淆、路径剖面与区间带图，双份导出（PDF/SVG 与 PNG/JPG）。

VIII. 超参搜索（HPO）

搜索空间：离散/连续/对数域，显式上下界与步长。
策略：grid | random | bayes | Hyperband | PBT；最大试验数与并发度。
目标与约束：主指标（如最小 MAE 或最大 AUC）与资源/成本/延迟/功耗约束；记录最优试验 trial_id 与 config。
复核：最佳配置在 val 与 holdout 双验证；如差异显著，进入偏倚复查与再次评测。

IX. 路径量统一口径（Normative Path Forms）

到达时（两种等价）：
T_arr = ( 1 / c_ref ) * ( ∫ n_eff d ell )
T_arr = ( ∫ ( n_eff / c_ref ) d ell )
相位累计：
Phi = ( 2π / λ_ref ) * ( ∫ n_eff d ell )

评测前按“时间→路径→相位”顺序对齐；数据侧记录 delta_form。

X. 质量门映射（Gate Mapping）

G1 Schema 完整：训练 I/O 与契约一致；
G2 引用合规：锚点直指率 ≥ 90%；
G3 路径规范：gamma/measure/delta_form 齐备、步长与对齐合规；
G4 量纲闭合：I70-dim_check 通过，p_dim = 1.0；
G5 新鲜度：clock_state="locked"、τ_calib 合规；
G6 覆盖一致：k/alpha/quantile 与误差卷一致；
G7 协方差一致：Σ 正定并与 cov_group 对齐；
G8 唯一性与无环：产物具 checksum，Lineage DAG 无环。
触发 S1–S5（量纲/新鲜度/路径/协方差/引用）即停止训练与发布，必要时标注 [Restricted]。

XI. 机读制品（Machine-Readable Artifacts）
A. train_config.yaml

version: "1.0.0"

seed: 20250924

batch: { size: 256, accum: 2, drop_last: true }

optimizer: { name: "adamw", lr: 3.0e-4, betas: [0.9, 0.999], weight_decay: 0.01 }

lr_scheduler: { name: "cosine", warmup_steps: 1000, min_lr: 1.0e-6 }

loss:

main: { type: "mse" }

reg: { type: "l2", lambda: 1.0e-4 }

amp: { enabled: true, dtype: "fp16" }

grad_clip: { type: "norm", max: 1.0 }

ddp: { world_size: 8, backend: "nccl", sync_bn: true }

eval: { every_steps: 1000, metrics: ["MAE","AUC","r_phi","Q_res"], coverage: { mode: "k", k: 2 } }

checkpoint: { best: "min:val/MAE", every_steps: 5000, keep_last: 5 }

B. repro_report.md（提纲）

# Reproducibility Report

- Environment snapshot (hw/sw/drivers/clocks)

- Seeds & determinism switches

- Data snapshot & checksums

- Best trial & config; eval curves & intervals

C. hpo_space.yaml（节选）

lr: { type: "loguniform", low: 3.0e-5, high: 3.0e-3 }

wd: { type: "loguniform", low: 1.0e-6, high: 1.0e-2 }

batch: { type: "choice", values: [128, 256, 512] }

warmup: { type: "choice", values: [500, 1000, 2000] }

XII. 反例与修正（Anti-Patterns & Fixes）

反例：未括号化 T_arr = ∫ n_eff / c_ref d ell → 修正：改为括号化统一口径。
反例：训练/评测使用不同 coverage.mode → 修正：统一并在清单声明。
反例：未固定 seed/环境 → 修正：固定所有随机源并输出环境快照。
反例：DDP 不可幂等恢复 → 修正：保存/恢复优化器与 AMP 状态并校验 checksum。

XIII. 交叉引用（Cross-References）

数据集卡：Ch.3/Ch.4/Ch.6/Ch.7/Ch.8/Ch.11；
误差预算卡：Ch.5/Ch.6/Ch.8/Ch.9/Ch.10/Ch.11；
管线卡：Ch.6/Ch.11/Ch.12；
参数注册卡：Ch.4/Ch.6/Ch.8/Ch.9/Ch.10/Ch.11。

XIV. 执行勾选清单（Checklist）

train_config.yaml / repro_report.md / hpo_space.yaml 已落库且参数与日志一致。
路径量显式 gamma/measure/delta_form，并满足步长与对齐约束；p_dim = 1.0。
覆盖与协方差口径统一（k/alpha/quantile、Σ PD）；/validate 通过 G1–G8。
环境与随机源固定；检查点可恢复且幂等；日志与图表双份导出。
不合规项标注 [Restricted] 并给出处置；引用锚点直指率 ≥ 90%。

版权与许可：除另有说明外，《能量丝理论》（含文本、图表、插图、符号与公式）的著作权由作者（屠广林）享有。
许可方式（CC BY 4.0）：在注明作者与来源的前提下，允许复制、转载、节选、改编与再分发。
署名格式（建议）：作者：屠广林｜作品：《能量丝理论》｜来源：energyfilament.org｜许可证：CC BY 4.0
验证召集： 作者独立自费、无雇主无资助；下一阶段将优先在最愿意公开讨论、公开复现、公开挑错的环境中推进落地，不限国家。欢迎各国媒体与同行抓住窗口组织验证，并与我们联系。
版本信息： 首次发布：2025-11-11 ｜当前版本：v6.0+5.05