目录文档-技术白皮书(V5.05)53-模型卡 Template v1.0

第6章 训练协议与超参数


I. 目标与范围(Purpose & Scope)


II. 前置条件与依赖(Prerequisites & Inputs)


III. 训练数据流水线(Data Pipeline)


IV. 优化器与调度(Optimizer & Schedules)

  1. 优化器:adamw | sgd | lion | adagrad ...,示例:adamw(lr=3.0e-4, weight_decay=0.01, β1=0.9, β2=0.999)。
  2. 学习率(LR):warmup → cosine 或 step | exponential;最大/最小 LR、热重启周期在清单固定。
  3. 动量/权重衰减:动量/weight_decay 与 bias/Norm 排除策略显式。
  4. 损失与正则
    • 总目标:L(θ) = E[ ℓ(f_θ(x), y) ] + λ R(θ);ℓ ∈ {CE, MSE, Huber},R(θ) ∈ {‖θ‖_2^2, TV, KL}。
    • 多任务:L = ∑_k w_k L_k,w_k 固化于清单;类别不平衡可用 class_weight 或 focal。

V. 训练控制(Training Control)


VI. 可复现与审计(Reproducibility & Audit)


VII. 在线评测与日志(Online Eval & Logging)


VIII. 超参搜索(HPO)


IX. 路径量统一口径(Normative Path Forms)

评测前按“时间→路径→相位”顺序对齐;数据侧记录 delta_form。


X. 质量门映射(Gate Mapping)


XI. 机读制品(Machine-Readable Artifacts)
A. train_config.yaml

version: "1.0.0"

seed: 20250924

batch: { size: 256, accum: 2, drop_last: true }

optimizer: { name: "adamw", lr: 3.0e-4, betas: [0.9, 0.999], weight_decay: 0.01 }

lr_scheduler: { name: "cosine", warmup_steps: 1000, min_lr: 1.0e-6 }

loss:

main: { type: "mse" }

reg: { type: "l2", lambda: 1.0e-4 }

amp: { enabled: true, dtype: "fp16" }

grad_clip: { type: "norm", max: 1.0 }

ddp: { world_size: 8, backend: "nccl", sync_bn: true }

eval: { every_steps: 1000, metrics: ["MAE","AUC","r_phi","Q_res"], coverage: { mode: "k", k: 2 } }

checkpoint: { best: "min:val/MAE", every_steps: 5000, keep_last: 5 }

B. repro_report.md(提纲)

# Reproducibility Report

- Environment snapshot (hw/sw/drivers/clocks)

- Seeds & determinism switches

- Data snapshot & checksums

- Best trial & config; eval curves & intervals


C. hpo_space.yaml(节选)

lr: { type: "loguniform", low: 3.0e-5, high: 3.0e-3 }

wd: { type: "loguniform", low: 1.0e-6, high: 1.0e-2 }

batch: { type: "choice", values: [128, 256, 512] }

warmup: { type: "choice", values: [500, 1000, 2000] }


XII. 反例与修正(Anti-Patterns & Fixes)


XIII. 交叉引用(Cross-References)


XIV. 执行勾选清单(Checklist)


版权与许可:除另有说明外,《能量丝理论》(含文本、图表、插图、符号与公式)的著作权由作者(屠广林)享有。
许可方式(CC BY 4.0):在注明作者与来源的前提下,允许复制、转载、节选、改编与再分发。
署名格式(建议):作者:屠广林|作品:《能量丝理论》|来源:energyfilament.org|许可证:CC BY 4.0
验证召集: 作者独立自费、无雇主无资助;下一阶段将优先在最愿意公开讨论、公开复现、公开挑错的环境中推进落地,不限国家。欢迎各国媒体与同行抓住窗口组织验证,并与我们联系。
版本信息: 首次发布:2025-11-11 | 当前版本:v6.0+5.05