目录 / 文档-技术白皮书 / 53-模型卡 Template v1.0
I. 目标与范围(Purpose & Scope)
- 给出模型**训练协议(Training Protocol)与超参数(Hyperparameters)**的规范化说明,覆盖数据流与批次、优化器与学习率调度、正则与早停、混合精度与分布式、可复现与审计、在线评测与检查点、超参搜索与约束。
- 凡涉及路径量(到达时/相位),正文显式 gamma(ell) 与测度 d ell,数据侧记录 delta_form ∈ {general, factored};所有表达式一律括号化,发布要求 p_dim = 1.0。
II. 前置条件与依赖(Prerequisites & Inputs)
- 数据对齐:使用《数据集卡》Ch.3/Ch.4/Ch.6/Ch.7 的 provenance/schema/splits/QC,路径数组满足 len(gamma_ell)=len(d_ell)=len(n_eff)≥2。
- 参数与计量:与《参数注册卡》的一致新鲜度策略 freshness.policy 与 cov_group;与《误差预算卡》一致的覆盖与协方差口径(k/alpha/quantile、Σ PD)。
- 时基与同步:clock_state="locked"、|ts_start − calib.timestamp| ≤ τ_calib;f_s ≥ 2·f_max。
- 引用与版本:一律“卷名 + 版本 + 锚点(P/S/M/I)”,锚点直指率 ≥ 90%。
III. 训练数据流水线(Data Pipeline)
- 读取与缓存:顺序/随机/分层采样;微批 micro-batch 支持。
- 预处理:标准化 x' = ( x − μ ) / σ、掩膜 x'' = x' ⊙ m、路径对齐 align(gamma_ell, d_ell, n_eff)。
- 增强(可选):记录增强算子/强度/比例;如改变分布,需在偏倚章节登记并做切片评估。
- 批组织:B(批大小)、A(梯度累积步)、T(时间窗)与 D(特征维)在清单固定。
IV. 优化器与调度(Optimizer & Schedules)
- 优化器:adamw | sgd | lion | adagrad ...,示例:adamw(lr=3.0e-4, weight_decay=0.01, β1=0.9, β2=0.999)。
- 学习率(LR):warmup → cosine 或 step | exponential;最大/最小 LR、热重启周期在清单固定。
- 动量/权重衰减:动量/weight_decay 与 bias/Norm 排除策略显式。
- 损失与正则:
- 总目标:L(θ) = E[ ℓ(f_θ(x), y) ] + λ R(θ);ℓ ∈ {CE, MSE, Huber},R(θ) ∈ {‖θ‖_2^2, TV, KL}。
- 多任务:L = ∑_k w_k L_k,w_k 固化于清单;类别不平衡可用 class_weight 或 focal。
V. 训练控制(Training Control)
- 轮次与步数:epochs、max_steps、评测间隔 eval_every。
- 早停(Early Stop):监控 metric*(如 val/MAE、val/AUC、val/r_phi),容忍 patience、最小改进 min_delta。
- 检查点(Checkpoint):按 best/last/every N steps 策略保存;包含 state_dict/optimizer/scaler/epoch/seed/checksum。
- 混合精度与裁剪:amp{fp16|bf16}、grad_clip{norm,max}。
- 分布式:DDP | ZeRO | FSDP 配置、同步 BN、梯度压缩与通信后端;确保幂等恢复与确定性。
VI. 可复现与审计(Reproducibility & Audit)
- 随机源固定:seed、库级 deterministic 开关、数据打乱种子、初始化策略。
- 环境快照:框架/编译器/驱动/硬件(CPU/GPU/内存/存储/时钟源)。
- 审计事件:audit.jsonl 记录训练起止、超参、数据快照校验和、最优指标、签名。
- 重现实验:提供 reproduce.sh 与 Makefile 片段,最小命令可从零还原 best.ckpt 与 eval_report。
VII. 在线评测与日志(Online Eval & Logging)
- 评测集:val/test/holdout/slice_k 与《数据集卡》一致;防泄漏规则严格执行。
- 指标与区间:同时报告点估计与区间(k/alpha/quantile),并输出收敛曲线。
- 日志:标量、直方、混淆、路径剖面与区间带图,双份导出(PDF/SVG 与 PNG/JPG)。
VIII. 超参搜索(HPO)
- 搜索空间:离散/连续/对数域,显式上下界与步长。
- 策略:grid | random | bayes | Hyperband | PBT;最大试验数与并发度。
- 目标与约束:主指标(如最小 MAE 或最大 AUC)与资源/成本/延迟/功耗约束;记录最优试验 trial_id 与 config。
- 复核:最佳配置在 val 与 holdout 双验证;如差异显著,进入偏倚复查与再次评测。
IX. 路径量统一口径(Normative Path Forms)
- 到达时(两种等价):
T_arr = ( 1 / c_ref ) * ( ∫ n_eff d ell )
T_arr = ( ∫ ( n_eff / c_ref ) d ell ) - 相位累计:
Phi = ( 2π / λ_ref ) * ( ∫ n_eff d ell )
评测前按“时间→路径→相位”顺序对齐;数据侧记录 delta_form。
X. 质量门映射(Gate Mapping)
- G1 Schema 完整:训练 I/O 与契约一致;
- G2 引用合规:锚点直指率 ≥ 90%;
- G3 路径规范:gamma/measure/delta_form 齐备、步长与对齐合规;
- G4 量纲闭合:I70-dim_check 通过,p_dim = 1.0;
- G5 新鲜度:clock_state="locked"、τ_calib 合规;
- G6 覆盖一致:k/alpha/quantile 与误差卷一致;
- G7 协方差一致:Σ 正定并与 cov_group 对齐;
- G8 唯一性与无环:产物具 checksum,Lineage DAG 无环。
- 触发 S1–S5(量纲/新鲜度/路径/协方差/引用)即停止训练与发布,必要时标注 [Restricted]。
XI. 机读制品(Machine-Readable Artifacts)
A. train_config.yaml
version: "1.0.0"
seed: 20250924
batch: { size: 256, accum: 2, drop_last: true }
optimizer: { name: "adamw", lr: 3.0e-4, betas: [0.9, 0.999], weight_decay: 0.01 }
lr_scheduler: { name: "cosine", warmup_steps: 1000, min_lr: 1.0e-6 }
loss:
main: { type: "mse" }
reg: { type: "l2", lambda: 1.0e-4 }
amp: { enabled: true, dtype: "fp16" }
grad_clip: { type: "norm", max: 1.0 }
ddp: { world_size: 8, backend: "nccl", sync_bn: true }
eval: { every_steps: 1000, metrics: ["MAE","AUC","r_phi","Q_res"], coverage: { mode: "k", k: 2 } }
checkpoint: { best: "min:val/MAE", every_steps: 5000, keep_last: 5 }
B. repro_report.md(提纲)
# Reproducibility Report
- Environment snapshot (hw/sw/drivers/clocks)
- Seeds & determinism switches
- Data snapshot & checksums
- Best trial & config; eval curves & intervals
C. hpo_space.yaml(节选)
lr: { type: "loguniform", low: 3.0e-5, high: 3.0e-3 }
wd: { type: "loguniform", low: 1.0e-6, high: 1.0e-2 }
batch: { type: "choice", values: [128, 256, 512] }
warmup: { type: "choice", values: [500, 1000, 2000] }
XII. 反例与修正(Anti-Patterns & Fixes)
- 反例:未括号化 T_arr = ∫ n_eff / c_ref d ell → 修正:改为括号化统一口径。
- 反例:训练/评测使用不同 coverage.mode → 修正:统一并在清单声明。
- 反例:未固定 seed/环境 → 修正:固定所有随机源并输出环境快照。
- 反例:DDP 不可幂等恢复 → 修正:保存/恢复优化器与 AMP 状态并校验 checksum。
XIII. 交叉引用(Cross-References)
- 数据集卡:Ch.3/Ch.4/Ch.6/Ch.7/Ch.8/Ch.11;
- 误差预算卡:Ch.5/Ch.6/Ch.8/Ch.9/Ch.10/Ch.11;
- 管线卡:Ch.6/Ch.11/Ch.12;
- 参数注册卡:Ch.4/Ch.6/Ch.8/Ch.9/Ch.10/Ch.11。
XIV. 执行勾选清单(Checklist)
- train_config.yaml / repro_report.md / hpo_space.yaml 已落库且参数与日志一致。
- 路径量显式 gamma/measure/delta_form,并满足步长与对齐约束;p_dim = 1.0。
- 覆盖与协方差口径统一(k/alpha/quantile、Σ PD);/validate 通过 G1–G8。
- 环境与随机源固定;检查点可恢复且幂等;日志与图表双份导出。
- 不合规项标注 [Restricted] 并给出处置;引用锚点直指率 ≥ 90%。
版权与许可(CC BY 4.0)
版权声明:除另有说明外,《能量丝理论》(含文本、图表、插图、符号与公式)的著作权由作者(“屠广林”先生)享有。
许可方式:本作品采用 Creative Commons 署名 4.0 国际许可协议(CC BY 4.0)进行许可;在注明作者与来源的前提下,允许为商业或非商业目的进行复制、转载、节选、改编与再分发。
署名格式(建议):作者:“屠广林”;作品:《能量丝理论》;来源:energyfilament.org;许可证:CC BY 4.0。
首次发布: 2025-11-11|当前版本:v5.1
协议链接:https://creativecommons.org/licenses/by/4.0/