目录 / 文档-技术白皮书 / 53-模型卡 Template v1.0
I. 目标与范围(Purpose & Scope)
- 规范上线模型的监控(Monitoring)、漂移检测(Drift Detection)与回退机制(Rollback)的指标、阈值、工作流与发布口径,确保故障或失配场景下可及时发现、可控降级、可审计回滚。
- 凡涉及路径量(到达时/相位),正文显式路径 gamma(ell) 与测度 d ell,数据侧记录 delta_form ∈ {general, factored};所有表达一律括号化,发布要求 p_dim = 1.0。
II. 前置条件与输入(Prerequisites & Inputs)
- 数据与切分:对齐《数据集卡》Ch.4/Ch.6/Ch.7/Ch.11(Schema/Splits/QC/Bench),在线采样与离线评测一致。
- 训练与部署:对齐本卷 Ch.6(训练协议)与 Ch.10(部署接口),best.ckpt 与环境快照已锁定。
- 覆盖与协方差:对齐《误差预算卡》之 coverage ∈ {k, alpha, quantile} 与 Σ PD。
- 参数新鲜度:对齐《参数注册卡》之 freshness.policy 与 cov_group。
- 引用与版本:一律“卷名 + 版本 + 锚点(P/S/M/I)”,锚点直指率 ≥ 90%;对外仅 v1.*。
III. 监控指标与阈值(Monitoring KPIs & Thresholds)
- 数据面(Data Plane):分布漂移(KS/ψ/EMD)、缺失与异常率、路径一致性(len(gamma_ell)=len(d_ell)=len(n_eff)≥2、Δell ≤ ( c_ref / f_s ) / max(n_eff))。
- 模型面(Model Plane):Q_res、r_phi、ε_flux、p_dim(=1)、预测不确定度 U=k·u_c 或分位带覆盖率。
- 时基与同步:clock_state、δt_abs、Δτ_ch、σ_y(τ)。
- 资源与性能:Latency_P95/P99、Throughput、ρ、P_avg/energy_per_req、loss_rate。
- 阈值映射:与 Ch.8/Ch.11 及《误差预算卡》Ch.9 的门槛一致;越界触发降级或回退。
IV. 漂移检测(Drift Detection)
- 数据漂移:
- 统计检验:KS/χ²/AD;多维用 MMD/能源距离;窗口化分层(batch/device/region)。
- 路径量:T_arr、Phi 的区间覆盖率与区间宽度趋势;参考窗内相位对齐后再检验。
- 概念漂移:
- 代理真值/延迟标注:在线对齐 val/test/holdout 反馈;
- 性能退化检查:ΔMAE/ΔAUC/Δr_phi 超阈与置信带不重叠。
- 不确定度校准:PIT/Calibration curve/Brier,异常时启用保守区间或稳健代理。
V. 回退机制(Rollback Mechanism)
- 状态机(FSM):normal → degrade → rollback → recover → normal,事件驱动(门越界/漂移确认/资源告警)。
- 降级策略:
- 模型侧:切低复杂度路径/启用稳健代理(Huber/分位);
- 数据侧:收紧质量门、隔离高风险 slice;
- 路径侧:切全带/短窗或提高 Δell 守卫(不违反上限)。
- 回退执行:锁定上一个稳定版本(签名与 checksum 校验),并保持 I/O 契约与覆盖口径不变。
- 恢复与验证:渐进流量回放(灰度),/validate 通过 G1–G8 与性能/质量阈值后再全量切换。
VI. 路径量统一口径(Normative Path Forms)
- 到达时(两式等价):
T_arr = ( 1 / c_ref ) * ( ∫ n_eff d ell )
T_arr = ( ∫ ( n_eff / c_ref ) d ell ) - 相位累计:
Phi = ( 2π / λ_ref ) * ( ∫ n_eff d ell )
监控与告警计算前按“时间→路径→相位”顺序对齐;数据侧记录 delta_form;路径数组满足长度与步长约束。
VII. 门阈映射(Gate Mapping)
- G1 Schema 完整:监控与漂移报告字段齐备;
- G2 引用合规:锚点直指率 ≥ 90%;
- G3 路径规范:路径块齐备、步长合规;
- G4 量纲闭合:在线/离线计算均保证 p_dim = 1.0;
- G5 新鲜度:clock_state="locked";
- G6 覆盖一致:在线区间与发布口径一致(k/alpha/quantile);
- G7 协方差一致:Σ PD,与误差卷配置一致;
- G8 唯一性与无环:事件与制品具 checksum,lineage 无环。
- 触发 S1–S5(量纲/新鲜度/路径/协方差/引用)即降级或回退,并可标注 [Restricted]。
VIII. 机读配置(Machine-Readable Configs)
A. monitoring_rules.yaml
version: "1.0.0"
windows: { short_s: 300, long_s: 86400 }
kpis:
latency_p95_s: { target: 0.200, alert: 0.250, critical: 0.300 }
throughput_rps: { target_min: 1000 }
q_res: { target_max: 0.20 }
p_dim: { require: 1.0 }
r_phi_lb95: { target_min: 0.60 }
epsilon_flux_p95: { target_max: 0.02 }
delta_t_abs_ns: { target_max: 50 }
delta_tau_ch_ns: { target_max: 5 }
drift:
data: { test: "ks", p_crit: 0.01, strata: ["device","region"] }
concept: { metric: "val/MAE", delta_crit: 0.05, ci_agree: true }
actions:
on_alert: ["degrade"]
on_critical: ["rollback"]
B. rollback_fsm.yaml
version: "1.0.0"
states: [normal, degrade, rollback, recover]
transitions:
- { from: normal, to: degrade, when: "gate_alert or drift_alert" }
- { from: degrade, to: rollback, when: "gate_critical or perf_critical" }
- { from: rollback,to: recover, when: "stable_prev_version_ready" }
- { from: recover, to: normal, when: "validate_pass and perf_ok" }
degrade:
strategies: ["robust_surrogate","tighten_gates","isolate_slices"]
rollback:
version_tag: "v1.2.3-lock"
verify: ["checksum","/validate","SLA/SLO"]
recover:
rollout: { canary_percent: 10, steps: 3, pause_s: 600 }
C. alerts.jsonl(示例行)
IX. 反例与修正(Anti-Patterns & Fixes)
- 反例:仅报均值无区间/无置信带 → 修正:补充 U=k·u_c 或分位带并给出收敛诊断。
- 反例:T_arr = ∫ n_eff / c_ref d ell(缺括号) → 修正:括号化为统一口径。
- 反例:发现漂移但不停机/不降级 → 修正:绑定 FSM 的自动化动作与审批阈值。
- 反例:回退版本未签名/无校验和 → 修正:强制签名与 checksum 校核。
- 反例:路径块缺 d ell/delta_form → 修正:补齐并与 n_eff 等长后再计算告警。
X. 交叉引用(Cross-References)
- 《数据集卡》:Ch.7(QC Gates)、Ch.8(UQ/Cov)、Ch.11(Bench/Score)、Ch.10(API)。
- 《误差预算卡》:Ch.8/Ch.9(区间与阈值映射)。
- 《管线卡》:Ch.7(状态/幂等/容错)、Ch.9(质量门/监控/告警)、Ch.12(产出/发布)。
- 本卷:Ch.6(训练协议)、Ch.7(UQ)、Ch.10(部署接口)。
XI. 执行勾选清单(Checklist)
- monitoring_rules.yaml / rollback_fsm.yaml / alerts.jsonl 已落库并启用。
- 路径量显式 gamma/measure/delta_form;p_dim = 1.0;告警与门阈一致。
- 漂移检验(数据/概念)可重现;降级/回退动作与审批路径明确并记录审计。
- 资源与性能监控与 Ch.11 一致,阈值与回归策略生效。
- /validate 通过 G1–G8;不合规项已按 [Restricted] 标注与处置;引用锚点直指率 ≥ 90%。
版权与许可(CC BY 4.0)
版权声明:除另有说明外,《能量丝理论》(含文本、图表、插图、符号与公式)的著作权由作者(“屠广林”先生)享有。
许可方式:本作品采用 Creative Commons 署名 4.0 国际许可协议(CC BY 4.0)进行许可;在注明作者与来源的前提下,允许为商业或非商业目的进行复制、转载、节选、改编与再分发。
署名格式(建议):作者:“屠广林”;作品:《能量丝理论》;来源:energyfilament.org;许可证:CC BY 4.0。
首次发布: 2025-11-11|当前版本:v5.1
协议链接:https://creativecommons.org/licenses/by/4.0/