目录文档-技术白皮书(V5.05)14-EFT.WP.Methods.Inference v1.0

第10章 运行、监控与告警


I. 范围与目标


II. 术语与符号


III. 公设与最小方程

  1. P41-51 可观测一致性公设
    任何 SLI 必须在统一时基下评估:ts = alpha + beta * tau_mono,聚合函数仅在经对齐后的样本上定义,避免时钟漂移导致的伪异常。
  2. P41-52 多窗口稳健告警公设
    告警触发需同时满足快窗与慢窗的烧损判定,以兼顾迅速性与稳健性,降低误报率。
  3. S42-61 SLI 定义与估计
    • 延迟分位:TS.latency_pq = Q_q( { TS.latency_i } ),其中 q ∈ {0.50,0.95,0.99};分位估计使用流式草图 sketch(·),如 KLL。
    • 吞吐:TS.thrpt = ( 1 / |W| ) * Σ batch_size_i。
    • 错误率:TS.error_rate = ( Σ I[ err_code_i != 0 ] ) / N_req(W)。
    • 指数滑动均值:EWMA_t = lambda * x_t + ( 1 - lambda ) * EWMA_{t-1 }。
  4. S42-62 SLO 达标判定
    • 延迟目标:Q_0.99( TS.latency | W ) <= L_target。
    • 可用性目标:1 - TS.error_rate >= 1 - epsilon 等价于 TS.error_rate <= epsilon。
    • 成本目标:cost.rate = ( Σ cost_i ) / |W| <= C_target。
    • 统一判定:meet_SLO = AND( cond_latency, cond_error, cond_cost, ... )。
  5. S42-63 错误预算与烧损率
    • error_budget = epsilon * N_req(W);观察到的失败数 E_obs 给出 burn_rate B = ( E_obs / error_budget )。
    • 多窗口触发:trigger = ( B_fast >= τ_fast ) AND ( B_slow >= τ_slow )。典型 τ_fast = 2.0,τ_slow = 1.0。
  6. S42-64 稳健异常分数
    MAD = median( | x - median(x) | );anom_score = ( x - median(x) ) / ( 1.4826 * MAD + eps );当 |anom_score| >= τ_mad 触发告警候选。
  7. S42-65 资源保护与背压
    若 ( budget.cpu/gpu/mem >= τ_budget ) 或 ( TS.latency_p99 > L_hard ),执行工作负载削峰:new_batch_size = max(1, floor( batch_size * k_down ) ),并暂停可选支路算子。

IV. 数据与清单口径

  1. 事件记录字段(最小必填):
    • ts, req_id, trace_id, span_id, route, model_id, version, device_class, batch_size。
    • input_bytes, output_bytes, TS.latency_ms, err_code, status。
    • cost_item, power_j, cpu_ms, gpu_ms。
    • y_hat_meta, confidence, calib_bin(与第7章校准口径一致)。
    • clock_align = {alpha, beta}(与第6章一致)。
  2. 聚合规范:
    • 窗口 W = [ t - T, t ),步长 stride;乱序延迟小于 watermark 的样本纳入,否则计入 late_drop 并审计。
    • 低基数标签白名单:{ route, model_id, version, device_class };高基数标签必须脱敏或采样(见实现绑定)。
  3. 审计与追溯:
    事件 hash( payload ),与 fingerprint、signature 关联;生成可验证链 anchor → IPC/PC → Runtime → Event。

V. 算法与实现绑定

  1. 原型
    • I40-30 record_infer_event(rt:Runtime, event:dict) -> ack:bool
    • I40-31 aggregate_sli(stream:any, spec:dict) -> {sli:dict, sketches:any}
    • I40-32 evaluate_slo(sli:dict, slo:dict) -> {meet:bool, details:dict}
    • I40-33 alert_engine(state:any, rules:dict, signals:dict) -> AlertSet
    • I40-34 execute_runbook(alert:Alert, playbook:dict) -> ActionReport
    • I40-35 backfill_and_realign(log:any, reference:any) -> {fixed:int, dropped:int}
    • I40-36 sample_and_redact(log:any, policy:dict) -> log
    • I40-37 update_degrade_chain(rt:Runtime, policy:dict) -> rt2:Runtime
  2. 告警决策函数(摘要)
    • 输入:B_fast, B_slow, anom_score, TS.latency_p99, budget.*。
    • 规则:
      1. 若 B_fast >= τ_fast AND B_slow >= τ_slow → 触发 S2。
      2. 若 TS.latency_p99 > L_hard 或 budget.* > τ_budget_hard → 触发 S1。
      3. 若 |anom_score| >= τ_mad 且 B_slow < τ_slow → 触发 S3 观察告警。
    • 行动映射见第 VI 节。
  3. 运行时降级与回退(有序链)
    • 降批并限流:batch_size := ⌊ batch_size * k_down ⌋;parallelism := max(1, parallelism - 1)。
    • 切换精度:dtype_policy := fp16 → int8(若 S42-43 保证不劣化校准门限)。
    • 算子支路关闭:关闭非关键 postproc 或解释性支路。
    • 模型回退:canary → stable → LTS,保持 anchor 可追溯。
    • 冻结新流量:对异常 route 应用熔断与重试策略。

VI. 计量流程与运行图(Mx-61 → Mx-68)


VII. 验证与测试矩阵


VIII. 交叉引用与依赖


IX. 风险、限制与开放问题


X. 交付件与版本管理

  1. 交付件
    • SLISpec.yaml,SLOSpec.yaml:指标定义与目标。
    • AlertMatrix.yaml:告警规则、阈值与多窗口策略。
    • Runbook.md:降级与回退剧本。
    • Dashboards.json:观测面板配置。
    • AuditLog.csv,IncidentReport.md:审计与复盘。
    • ScoreReport.json:与第8章一致的综合评分。
  2. 版本策略
    • 任何 SLO 目标或告警矩阵的变更均需要更新 PC.meta.parent_fingerprint 并生成新 signature。
    • 面板与告警仅影响监控平面,不改变推理平面,但必须在 AuditLog 中登记生效时间窗与 key_id。
    • 发布按 canary → stable → LTS 分层,设定观测门 K_ok 与滞回,防止抖动发布。

版权与许可:除另有说明外,《能量丝理论》(含文本、图表、插图、符号与公式)的著作权由作者(屠广林)享有。
许可方式(CC BY 4.0):在注明作者与来源的前提下,允许复制、转载、节选、改编与再分发。
署名格式(建议):作者:屠广林|作品:《能量丝理论》|来源:energyfilament.org|许可证:CC BY 4.0
验证召集: 作者独立自费、无雇主无资助;下一阶段将优先在最愿意公开讨论、公开复现、公开挑错的环境中推进落地,不限国家。欢迎各国媒体与同行抓住窗口组织验证,并与我们联系。
版本信息: 首次发布:2025-11-11 | 当前版本:v6.0+5.05