目录文档-技术白皮书53-模型卡 Template v1.0

第12章 监控、漂移与回退


I. 目标与范围(Purpose & Scope)


II. 前置条件与输入(Prerequisites & Inputs)


III. 监控指标与阈值(Monitoring KPIs & Thresholds)


IV. 漂移检测(Drift Detection)

  1. 数据漂移
    • 统计检验:KS/χ²/AD;多维用 MMD/能源距离;窗口化分层(batch/device/region)。
    • 路径量:T_arr、Phi 的区间覆盖率与区间宽度趋势;参考窗内相位对齐后再检验。
  2. 概念漂移
    • 代理真值/延迟标注:在线对齐 val/test/holdout 反馈;
    • 性能退化检查:ΔMAE/ΔAUC/Δr_phi 超阈与置信带不重叠。
  3. 不确定度校准:PIT/Calibration curve/Brier,异常时启用保守区间或稳健代理。

V. 回退机制(Rollback Mechanism)

  1. 状态机(FSM):normal → degrade → rollback → recover → normal,事件驱动(门越界/漂移确认/资源告警)。
  2. 降级策略
    • 模型侧:切低复杂度路径/启用稳健代理(Huber/分位);
    • 数据侧:收紧质量门、隔离高风险 slice;
    • 路径侧:切全带/短窗或提高 Δell 守卫(不违反上限)。
  3. 回退执行:锁定上一个稳定版本(签名与 checksum 校验),并保持 I/O 契约与覆盖口径不变。
  4. 恢复与验证:渐进流量回放(灰度),/validate 通过 G1–G8 与性能/质量阈值后再全量切换。

VI. 路径量统一口径(Normative Path Forms)

监控与告警计算前按“时间→路径→相位”顺序对齐;数据侧记录 delta_form;路径数组满足长度与步长约束。


VII. 门阈映射(Gate Mapping)


VIII. 机读配置(Machine-Readable Configs)
A. monitoring_rules.yaml

version: "1.0.0"

windows: { short_s: 300, long_s: 86400 }

kpis:

latency_p95_s: { target: 0.200, alert: 0.250, critical: 0.300 }

throughput_rps: { target_min: 1000 }

q_res: { target_max: 0.20 }

p_dim: { require: 1.0 }

r_phi_lb95: { target_min: 0.60 }

epsilon_flux_p95: { target_max: 0.02 }

delta_t_abs_ns: { target_max: 50 }

delta_tau_ch_ns: { target_max: 5 }

drift:

data: { test: "ks", p_crit: 0.01, strata: ["device","region"] }

concept: { metric: "val/MAE", delta_crit: 0.05, ci_agree: true }

actions:

on_alert: ["degrade"]

on_critical: ["rollback"]

B. rollback_fsm.yaml

version: "1.0.0"

states: [normal, degrade, rollback, recover]

transitions:

- { from: normal, to: degrade, when: "gate_alert or drift_alert" }

- { from: degrade, to: rollback, when: "gate_critical or perf_critical" }

- { from: rollback,to: recover, when: "stable_prev_version_ready" }

- { from: recover, to: normal, when: "validate_pass and perf_ok" }

degrade:

strategies: ["robust_surrogate","tighten_gates","isolate_slices"]

rollback:

version_tag: "v1.2.3-lock"

verify: ["checksum","/validate","SLA/SLO"]

recover:

rollout: { canary_percent: 10, steps: 3, pause_s: 600 }


C. alerts.jsonl(示例行)

JSON json
{
  "ts": "2025-09-24T16:10:00Z",
  "level": "critical",
  "event": "gate_fail",
  "gate": "G4",
  "detail": "p_dim < 1.0",
  "action": "rollback"
}

IX. 反例与修正(Anti-Patterns & Fixes)


X. 交叉引用(Cross-References)


XI. 执行勾选清单(Checklist)


版权与许可(CC BY 4.0)

版权声明:除另有说明外,《能量丝理论》(含文本、图表、插图、符号与公式)的著作权由作者(“屠广林”先生)享有。
许可方式:本作品采用 Creative Commons 署名 4.0 国际许可协议(CC BY 4.0)进行许可;在注明作者与来源的前提下,允许为商业或非商业目的进行复制、转载、节选、改编与再分发。
署名格式(建议):作者:“屠广林”;作品:《能量丝理论》;来源:energyfilament.org;许可证:CC BY 4.0。

首次发布: 2025-11-11|当前版本:v5.1
协议链接:https://creativecommons.org/licenses/by/4.0/