14-EFT.WP.Methods.Inference v1.0 | 第8章性能度量与 SLO | 能量丝理论

第8章性能度量与 SLO

I. 范围与目标

统一推理性能度量与服务目标（SLO）的对象模型、计算口径与发布形制，覆盖离线压测与线上观测、单实例与分布式推理、CPU/GPU/加速器多形态。
给出可复用的评分合成 score、门限 gate.slo 与误差预算分配，保证与第6章在线/离线一致性、第7章校准门限并行可执行。
目标产出：
- 指标与口径：TS.latency_{p50,p95,p99}，TS.thrpt，TS.error，tail_ampl，cost_u，R_infer。
- SLO 规范：SLO = { name, sli, target, window, objective, budget }。
- 评分合成：score = Σ w_k * s_k，并发布 ScoreReport 与 SLOReport。
- 计量流程：Mx-47 → Mx-52。

II. 术语与符号

指标与分解：
- 延迟分解：TS.lat_total = TS.lat_io + TS.lat_queue + TS.lat_sched + TS.lat_model。
- 吞吐：TS.thrpt = N_req / W；并发近似：WIP ≈ TS.arrival_rate * E[T]。
- 尾部放大：tail_ampl = TS.latency_p99 / TS.latency_p50。
- 可用性：avail = 1 - ( N_err / N_req )，其中 N_err 计入 timeout, 5xx, policy_denied。
SLI/SLO/SLA：
SLI 为可观测量（如 TS.latency_p99）；SLO 为目标（如 TS.latency_p99 <= L_target 于窗口 W）；SLA 为外部契约不在本卷细化。
成本与预算：
- 单位成本：cost_u = ( cost_cpu + cost_gpu + cost_mem + cost_io + cost_net ) / N_req。
- 资源预算：budget.cpu/gpu/mem/power；误差预算：budget.err = 1 - target.avail。
规范化与评分：
- 线性下行规范化：norm_down(x; a,b) = clamp( ( b - x ) / ( b - a ), 0, 1 )（数值越小越好）。
- 线性上行规范化：norm_up(x; a,b) = clamp( ( x - a ) / ( b - a ), 0, 1 )（数值越大越好）。

III. 公设与最小方程

P41-21 观测口径不变公设
在锁定 EnvLock 与固定聚合器的条件下，同一 SLI 的线上/离线计算口径等价：SLI_off ≡ SLI_on。
P41-22 多目标单调性公设
若对任一子指标 s_k 有改进（其余不变），则 score 不下降：∂score/∂s_k >= 0。
S42-31 评分合成
- score = w_acc * acc + w_cal * ( 1 - ECE_norm ) + w_lat * ( 1 - lat_p99_norm ) + w_thr * thrpt_norm + w_cost * ( 1 - cost_u_norm ) + w_cons * R_infer，且 Σ w_* = 1。
- lat_p99_norm = norm_down( TS.latency_p99; L_target, L_worst )；thrpt_norm = norm_up( TS.thrpt; QPS_min, QPS_goal )；cost_u_norm = norm_up( cost_u; C_min, C_max )；ECE_norm = norm_up( ECE; 0, ECE_max )。
S42-32 SLO 判定与误差预算
- 延迟型：pass_lat = 1[ TS.latency_p99 <= L_target ]；可用性型：pass_avail = 1[ avail >= A_target ]。
- 预算消耗：budget.used = violations / opportunities；其中 violations = Σ 1[ SLI_i 不达标 ]。
S42-33 成本模型
- cost_cpu = price_cpu * cpu_time；cost_gpu = price_gpu * gpu_time；cost_mem = price_mem * mem_GB * time；cost_io/net 同理。
- cost_u = ( cost_cpu + cost_gpu + cost_mem + cost_io + cost_net ) / N_req。
S42-34 队列一致性与小定律近似
WIP ≈ λ * E[T]，其中 λ = TS.arrival_rate，E[T] = TS.latency_p50，用于容量与背压校核。

IV. 数据与清单口径

观测最小字段（按请求）：
- ts_start, ts_end, route, batch_size, device, dtype_policy, quant_scheme, status, bytes_in/out, retries, cold_start, z_logit_opt。
- 资源采样：cpu_pct, gpu_util, mem_GB, power_W, sm_occupancy, bw_in/out。
- 分桶与聚合：hist.latency（支持 kll/tdigest），窗口 W，步长 Δt。
口径一致性：
所有延迟以 tau_mono 计量并映射至 ts：ts = alpha + beta * tau_mono；百分位采用同一近似器与压缩参数。
成本口径：
明确单价基准与币种；对混部场景记录 share_ratio 以分摊 cost_mem 与 cost_net。

V. 算法与实现绑定

原型
- I40-11 compute_sli(stream:any, spec:dict) -> SLIReport
- I40-12 compose_score(sli:dict, weights:dict) -> ScoreReport
- I40-13 plan_capacity(target:dict, priors:dict) -> Plan
- I40-10 compare_offline_online(off:any, on:any, policy:dict) -> ConsistencyReport
compute_sli 要点
使用 kll/tdigest 维护 TS.latency_{p50,p95,p99}；窗口化聚合 W 与步长 Δt；按 route/device 维度出具切片。
compose_score 要点
依据 S42-31 规范化并合成；返回 score、各维 s_k、gate.slo 与灵敏度 ∂score/∂s_k。
plan_capacity
给出 ( λ, batch_size, replica ) 的可行域，使 pass_lat ∧ pass_avail ∧ cost_u <= C_cap；若不可行，返回 E_RESOURCE_EXCEEDED。

VI. 计量流程与运行图（Mx-47 → Mx-52）

Mx-47 SLI 架构与基线
定义 SLI 与聚合器参数；在离线回放上计算基线 TS.latency_* / TS.thrpt / cost_u / avail。
Mx-48 压测与容量摸底
梯度负载 λ 扫描与 batch_size 网格，提取 (p99, tail_ampl, thrpt) 曲面；记录 Plan 与背压阈值。
Mx-49 评分合成与门限设定
设定权重 w_* 与门限 tau_score、L_target、A_target、C_cap；生成 ScoreReport 与 SLOReport。
Mx-50 上线灰度与实时观测
部署到 canary，按 Δt 计算 SLI；异常触发：budget.used > τ_budget 或 tail_ampl > τ_tail → 降级与回退。
Mx-51 预算治理与自愈
实施优先级/限流/熔断/批量策略，控制 budget.used；达标后逐步扩容。
Mx-52 存档与审计
存档 SLIReport/ScoreReport/Plan、fingerprint 与聚合器配置；输出可验证签名。

VII. 验证与测试矩阵

VIII. 交叉引用与依赖

与第6章共享 TS.*、R_infer、回退与灰度编排；与第7章共享 score 中的 ECE_norm 与校准门限；与《EFT.WP.Methods.Repro》第8章之评分与发布口径一致；并遵循《Core.Threads》对 hb/bp/makespan/critical path 的语义。

IX. 风险、限制与开放问题

X. 交付件与版本管理

交付件：
- SLOSpec.yaml（SLO 定义与预算）；
- SLIReport.json（分维度窗口统计与近似器参数）；
- ScoreReport.json（score、s_k、灵敏度与门限）；
- Plan.yaml（容量计划与回退阈值）；
- 审计包（聚合器 fingerprint、签名与发布指纹）。
版本策略：
变更 SLI 定义、聚合器或窗口 W/Δt、w_*、或任何 target/budget，须提升次版本并在附录C登记；若改变评分结构或成本模型项，提升主版本并更新 fingerprint = hash( SLOSpec || ScoreSpec )。