目录文档-技术白皮书14-EFT.WP.Methods.Inference v1.0

第8章 性能度量与 SLO


I. 范围与目标

  1. 统一推理性能度量与服务目标(SLO)的对象模型、计算口径与发布形制,覆盖离线压测与线上观测、单实例与分布式推理、CPU/GPU/加速器多形态。
  2. 给出可复用的评分合成 score、门限 gate.slo 与误差预算分配,保证与第6章在线/离线一致性、第7章校准门限并行可执行。
  3. 目标产出:
    • 指标与口径:TS.latency_{p50,p95,p99},TS.thrpt,TS.error,tail_ampl,cost_u,R_infer。
    • SLO 规范:SLO = { name, sli, target, window, objective, budget }。
    • 评分合成:score = Σ w_k * s_k,并发布 ScoreReport 与 SLOReport。
    • 计量流程:Mx-47 → Mx-52。

II. 术语与符号

  1. 指标与分解:
    • 延迟分解:TS.lat_total = TS.lat_io + TS.lat_queue + TS.lat_sched + TS.lat_model。
    • 吞吐:TS.thrpt = N_req / W;并发近似:WIP ≈ TS.arrival_rate * E[T]。
    • 尾部放大:tail_ampl = TS.latency_p99 / TS.latency_p50。
    • 可用性:avail = 1 - ( N_err / N_req ),其中 N_err 计入 timeout, 5xx, policy_denied。
  2. SLI/SLO/SLA:
    SLI 为可观测量(如 TS.latency_p99);SLO 为目标(如 TS.latency_p99 <= L_target 于窗口 W);SLA 为外部契约不在本卷细化。
  3. 成本与预算:
    • 单位成本:cost_u = ( cost_cpu + cost_gpu + cost_mem + cost_io + cost_net ) / N_req。
    • 资源预算:budget.cpu/gpu/mem/power;误差预算:budget.err = 1 - target.avail。
  4. 规范化与评分:
    • 线性下行规范化:norm_down(x; a,b) = clamp( ( b - x ) / ( b - a ), 0, 1 )(数值越小越好)。
    • 线性上行规范化:norm_up(x; a,b) = clamp( ( x - a ) / ( b - a ), 0, 1 )(数值越大越好)。

III. 公设与最小方程

  1. P41-21 观测口径不变公设
    在锁定 EnvLock 与固定聚合器的条件下,同一 SLI 的线上/离线计算口径等价:SLI_off ≡ SLI_on。
  2. P41-22 多目标单调性公设
    若对任一子指标 s_k 有改进(其余不变),则 score 不下降:∂score/∂s_k >= 0。
  3. S42-31 评分合成
    • score = w_acc * acc + w_cal * ( 1 - ECE_norm ) + w_lat * ( 1 - lat_p99_norm ) + w_thr * thrpt_norm + w_cost * ( 1 - cost_u_norm ) + w_cons * R_infer,且 Σ w_* = 1。
    • lat_p99_norm = norm_down( TS.latency_p99; L_target, L_worst );thrpt_norm = norm_up( TS.thrpt; QPS_min, QPS_goal );cost_u_norm = norm_up( cost_u; C_min, C_max );ECE_norm = norm_up( ECE; 0, ECE_max )。
  4. S42-32 SLO 判定与误差预算
    • 延迟型:pass_lat = 1[ TS.latency_p99 <= L_target ];可用性型:pass_avail = 1[ avail >= A_target ]。
    • 预算消耗:budget.used = violations / opportunities;其中 violations = Σ 1[ SLI_i 不达标 ]。
  5. S42-33 成本模型
    • cost_cpu = price_cpu * cpu_time;cost_gpu = price_gpu * gpu_time;cost_mem = price_mem * mem_GB * time;cost_io/net 同理。
    • cost_u = ( cost_cpu + cost_gpu + cost_mem + cost_io + cost_net ) / N_req。
  6. S42-34 队列一致性与小定律近似
    WIP ≈ λ * E[T],其中 λ = TS.arrival_rate,E[T] = TS.latency_p50,用于容量与背压校核。

IV. 数据与清单口径

  1. 观测最小字段(按请求):
    • ts_start, ts_end, route, batch_size, device, dtype_policy, quant_scheme, status, bytes_in/out, retries, cold_start, z_logit_opt。
    • 资源采样:cpu_pct, gpu_util, mem_GB, power_W, sm_occupancy, bw_in/out。
    • 分桶与聚合:hist.latency(支持 kll/tdigest),窗口 W,步长 Δt。
  2. 口径一致性:
    所有延迟以 tau_mono 计量并映射至 ts:ts = alpha + beta * tau_mono;百分位采用同一近似器与压缩参数。
  3. 成本口径:
    明确单价基准与币种;对混部场景记录 share_ratio 以分摊 cost_mem 与 cost_net。

V. 算法与实现绑定

  1. 原型
    • I40-11 compute_sli(stream:any, spec:dict) -> SLIReport
    • I40-12 compose_score(sli:dict, weights:dict) -> ScoreReport
    • I40-13 plan_capacity(target:dict, priors:dict) -> Plan
    • I40-10 compare_offline_online(off:any, on:any, policy:dict) -> ConsistencyReport
  2. compute_sli 要点
    使用 kll/tdigest 维护 TS.latency_{p50,p95,p99};窗口化聚合 W 与步长 Δt;按 route/device 维度出具切片。
  3. compose_score 要点
    依据 S42-31 规范化并合成;返回 score、各维 s_k、gate.slo 与灵敏度 ∂score/∂s_k。
  4. plan_capacity
    给出 ( λ, batch_size, replica ) 的可行域,使 pass_lat ∧ pass_avail ∧ cost_u <= C_cap;若不可行,返回 E_RESOURCE_EXCEEDED。

VI. 计量流程与运行图(Mx-47 → Mx-52)


VII. 验证与测试矩阵


VIII. 交叉引用与依赖

与第6章共享 TS.*、R_infer、回退与灰度编排;与第7章共享 score 中的 ECE_norm 与校准门限;与《EFT.WP.Methods.Repro》第8章之评分与发布口径一致;并遵循《Core.Threads》对 hb/bp/makespan/critical path 的语义。

IX. 风险、限制与开放问题


X. 交付件与版本管理

  1. 交付件:
    • SLOSpec.yaml(SLO 定义与预算);
    • SLIReport.json(分维度窗口统计与近似器参数);
    • ScoreReport.json(score、s_k、灵敏度与门限);
    • Plan.yaml(容量计划与回退阈值);
    • 审计包(聚合器 fingerprint、签名与发布指纹)。
  2. 版本策略:
    变更 SLI 定义、聚合器或窗口 W/Δt、w_*、或任何 target/budget,须提升次版本并在附录C登记;若改变评分结构或成本模型项,提升主版本并更新 fingerprint = hash( SLOSpec || ScoreSpec )。

版权与许可(CC BY 4.0)

版权声明:除另有说明外,《能量丝理论》(含文本、图表、插图、符号与公式)的著作权由作者(“屠广林”先生)享有。
许可方式:本作品采用 Creative Commons 署名 4.0 国际许可协议(CC BY 4.0)进行许可;在注明作者与来源的前提下,允许为商业或非商业目的进行复制、转载、节选、改编与再分发。
署名格式(建议):作者:“屠广林”;作品:《能量丝理论》;来源:energyfilament.org;许可证:CC BY 4.0。

首次发布: 2025-11-11|当前版本:v5.1
协议链接:https://creativecommons.org/licenses/by/4.0/