目录文档-技术白皮书53-模型卡 Template v1.0

第6章 训练协议与超参数


I. 目标与范围(Purpose & Scope)


II. 前置条件与依赖(Prerequisites & Inputs)


III. 训练数据流水线(Data Pipeline)


IV. 优化器与调度(Optimizer & Schedules)

  1. 优化器:adamw | sgd | lion | adagrad ...,示例:adamw(lr=3.0e-4, weight_decay=0.01, β1=0.9, β2=0.999)。
  2. 学习率(LR):warmup → cosine 或 step | exponential;最大/最小 LR、热重启周期在清单固定。
  3. 动量/权重衰减:动量/weight_decay 与 bias/Norm 排除策略显式。
  4. 损失与正则
    • 总目标:L(θ) = E[ ℓ(f_θ(x), y) ] + λ R(θ);ℓ ∈ {CE, MSE, Huber},R(θ) ∈ {‖θ‖_2^2, TV, KL}。
    • 多任务:L = ∑_k w_k L_k,w_k 固化于清单;类别不平衡可用 class_weight 或 focal。

V. 训练控制(Training Control)


VI. 可复现与审计(Reproducibility & Audit)


VII. 在线评测与日志(Online Eval & Logging)


VIII. 超参搜索(HPO)


IX. 路径量统一口径(Normative Path Forms)

评测前按“时间→路径→相位”顺序对齐;数据侧记录 delta_form。


X. 质量门映射(Gate Mapping)


XI. 机读制品(Machine-Readable Artifacts)
A. train_config.yaml

version: "1.0.0"

seed: 20250924

batch: { size: 256, accum: 2, drop_last: true }

optimizer: { name: "adamw", lr: 3.0e-4, betas: [0.9, 0.999], weight_decay: 0.01 }

lr_scheduler: { name: "cosine", warmup_steps: 1000, min_lr: 1.0e-6 }

loss:

main: { type: "mse" }

reg: { type: "l2", lambda: 1.0e-4 }

amp: { enabled: true, dtype: "fp16" }

grad_clip: { type: "norm", max: 1.0 }

ddp: { world_size: 8, backend: "nccl", sync_bn: true }

eval: { every_steps: 1000, metrics: ["MAE","AUC","r_phi","Q_res"], coverage: { mode: "k", k: 2 } }

checkpoint: { best: "min:val/MAE", every_steps: 5000, keep_last: 5 }

B. repro_report.md(提纲)

# Reproducibility Report

- Environment snapshot (hw/sw/drivers/clocks)

- Seeds & determinism switches

- Data snapshot & checksums

- Best trial & config; eval curves & intervals


C. hpo_space.yaml(节选)

lr: { type: "loguniform", low: 3.0e-5, high: 3.0e-3 }

wd: { type: "loguniform", low: 1.0e-6, high: 1.0e-2 }

batch: { type: "choice", values: [128, 256, 512] }

warmup: { type: "choice", values: [500, 1000, 2000] }


XII. 反例与修正(Anti-Patterns & Fixes)


XIII. 交叉引用(Cross-References)


XIV. 执行勾选清单(Checklist)


版权与许可(CC BY 4.0)

版权声明:除另有说明外,《能量丝理论》(含文本、图表、插图、符号与公式)的著作权由作者(“屠广林”先生)享有。
许可方式:本作品采用 Creative Commons 署名 4.0 国际许可协议(CC BY 4.0)进行许可;在注明作者与来源的前提下,允许为商业或非商业目的进行复制、转载、节选、改编与再分发。
署名格式(建议):作者:“屠广林”;作品:《能量丝理论》;来源:energyfilament.org;许可证:CC BY 4.0。

首次发布: 2025-11-11|当前版本:v5.1
协议链接:https://creativecommons.org/licenses/by/4.0/