目录 / 文档-技术白皮书 / 14-EFT.WP.Methods.Inference v1.0
I. 范围与目标
- 统一推理性能度量与服务目标(SLO)的对象模型、计算口径与发布形制,覆盖离线压测与线上观测、单实例与分布式推理、CPU/GPU/加速器多形态。
- 给出可复用的评分合成 score、门限 gate.slo 与误差预算分配,保证与第6章在线/离线一致性、第7章校准门限并行可执行。
- 目标产出:
- 指标与口径:TS.latency_{p50,p95,p99},TS.thrpt,TS.error,tail_ampl,cost_u,R_infer。
- SLO 规范:SLO = { name, sli, target, window, objective, budget }。
- 评分合成:score = Σ w_k * s_k,并发布 ScoreReport 与 SLOReport。
- 计量流程:Mx-47 → Mx-52。
II. 术语与符号
- 指标与分解:
- 延迟分解:TS.lat_total = TS.lat_io + TS.lat_queue + TS.lat_sched + TS.lat_model。
- 吞吐:TS.thrpt = N_req / W;并发近似:WIP ≈ TS.arrival_rate * E[T]。
- 尾部放大:tail_ampl = TS.latency_p99 / TS.latency_p50。
- 可用性:avail = 1 - ( N_err / N_req ),其中 N_err 计入 timeout, 5xx, policy_denied。
- SLI/SLO/SLA:
SLI 为可观测量(如 TS.latency_p99);SLO 为目标(如 TS.latency_p99 <= L_target 于窗口 W);SLA 为外部契约不在本卷细化。 - 成本与预算:
- 单位成本:cost_u = ( cost_cpu + cost_gpu + cost_mem + cost_io + cost_net ) / N_req。
- 资源预算:budget.cpu/gpu/mem/power;误差预算:budget.err = 1 - target.avail。
- 规范化与评分:
- 线性下行规范化:norm_down(x; a,b) = clamp( ( b - x ) / ( b - a ), 0, 1 )(数值越小越好)。
- 线性上行规范化:norm_up(x; a,b) = clamp( ( x - a ) / ( b - a ), 0, 1 )(数值越大越好)。
III. 公设与最小方程
- P41-21 观测口径不变公设
在锁定 EnvLock 与固定聚合器的条件下,同一 SLI 的线上/离线计算口径等价:SLI_off ≡ SLI_on。 - P41-22 多目标单调性公设
若对任一子指标 s_k 有改进(其余不变),则 score 不下降:∂score/∂s_k >= 0。 - S42-31 评分合成
- score = w_acc * acc + w_cal * ( 1 - ECE_norm ) + w_lat * ( 1 - lat_p99_norm ) + w_thr * thrpt_norm + w_cost * ( 1 - cost_u_norm ) + w_cons * R_infer,且 Σ w_* = 1。
- lat_p99_norm = norm_down( TS.latency_p99; L_target, L_worst );thrpt_norm = norm_up( TS.thrpt; QPS_min, QPS_goal );cost_u_norm = norm_up( cost_u; C_min, C_max );ECE_norm = norm_up( ECE; 0, ECE_max )。
- S42-32 SLO 判定与误差预算
- 延迟型:pass_lat = 1[ TS.latency_p99 <= L_target ];可用性型:pass_avail = 1[ avail >= A_target ]。
- 预算消耗:budget.used = violations / opportunities;其中 violations = Σ 1[ SLI_i 不达标 ]。
- S42-33 成本模型
- cost_cpu = price_cpu * cpu_time;cost_gpu = price_gpu * gpu_time;cost_mem = price_mem * mem_GB * time;cost_io/net 同理。
- cost_u = ( cost_cpu + cost_gpu + cost_mem + cost_io + cost_net ) / N_req。
- S42-34 队列一致性与小定律近似
WIP ≈ λ * E[T],其中 λ = TS.arrival_rate,E[T] = TS.latency_p50,用于容量与背压校核。
IV. 数据与清单口径
- 观测最小字段(按请求):
- ts_start, ts_end, route, batch_size, device, dtype_policy, quant_scheme, status, bytes_in/out, retries, cold_start, z_logit_opt。
- 资源采样:cpu_pct, gpu_util, mem_GB, power_W, sm_occupancy, bw_in/out。
- 分桶与聚合:hist.latency(支持 kll/tdigest),窗口 W,步长 Δt。
- 口径一致性:
所有延迟以 tau_mono 计量并映射至 ts:ts = alpha + beta * tau_mono;百分位采用同一近似器与压缩参数。 - 成本口径:
明确单价基准与币种;对混部场景记录 share_ratio 以分摊 cost_mem 与 cost_net。
V. 算法与实现绑定
- 原型
- I40-11 compute_sli(stream:any, spec:dict) -> SLIReport
- I40-12 compose_score(sli:dict, weights:dict) -> ScoreReport
- I40-13 plan_capacity(target:dict, priors:dict) -> Plan
- I40-10 compare_offline_online(off:any, on:any, policy:dict) -> ConsistencyReport
- compute_sli 要点
使用 kll/tdigest 维护 TS.latency_{p50,p95,p99};窗口化聚合 W 与步长 Δt;按 route/device 维度出具切片。 - compose_score 要点
依据 S42-31 规范化并合成;返回 score、各维 s_k、gate.slo 与灵敏度 ∂score/∂s_k。 - plan_capacity
给出 ( λ, batch_size, replica ) 的可行域,使 pass_lat ∧ pass_avail ∧ cost_u <= C_cap;若不可行,返回 E_RESOURCE_EXCEEDED。
VI. 计量流程与运行图(Mx-47 → Mx-52)
- Mx-47 SLI 架构与基线
定义 SLI 与聚合器参数;在离线回放上计算基线 TS.latency_* / TS.thrpt / cost_u / avail。 - Mx-48 压测与容量摸底
梯度负载 λ 扫描与 batch_size 网格,提取 (p99, tail_ampl, thrpt) 曲面;记录 Plan 与背压阈值。 - Mx-49 评分合成与门限设定
设定权重 w_* 与门限 tau_score、L_target、A_target、C_cap;生成 ScoreReport 与 SLOReport。 - Mx-50 上线灰度与实时观测
部署到 canary,按 Δt 计算 SLI;异常触发:budget.used > τ_budget 或 tail_ampl > τ_tail → 降级与回退。 - Mx-51 预算治理与自愈
实施 优先级/限流/熔断/批量 策略,控制 budget.used;达标后逐步扩容。 - Mx-52 存档与审计
存档 SLIReport/ScoreReport/Plan、fingerprint 与聚合器配置;输出可验证签名。
VII. 验证与测试矩阵
- 百分位精度:对已知分布的合成延迟流,比较近似与真值,要求 |p99_hat - p99_true| <= ε_p。
- 尾部敏感性:注入排队与冷启动场景,tail_ampl 随 λ 上升而上升;识别阈值与回退触发。
- 容量计划回放:按 Plan 上线,观测 pass_lat ∧ pass_avail 在 95% 窗口内成立。
- 成本封顶:在 C_cap 下调度,cost_u 不越界;越界时产生 E_RESOURCE_EXCEEDED。
- 一致性对照:R_infer >= τ_cons 且 TS.latency_* 差异在 Δlat_allow 内,保证第6章一致性契约。
VIII. 交叉引用与依赖
与第6章共享 TS.*、R_infer、回退与灰度编排;与第7章共享 score 中的 ECE_norm 与校准门限;与《EFT.WP.Methods.Repro》第8章之评分与发布口径一致;并遵循《Core.Threads》对 hb/bp/makespan/critical path 的语义。IX. 风险、限制与开放问题
- 观测偏差:采样与聚合窗口选择可能引入估计偏差;需在 SLIReport 中披露 Δt/W 与近似器参数。
- 多租户串扰:共享资源导致 TS.latency_p99 抖动;需要隔离或配额以稳定 tail_ampl。
- 指标对齐:不同节点时钟偏移影响端到端 TS.lat_total;必须先完成 ts = alpha + beta * tau_mono 对齐。
- 成本归因:跨服务流水线的成本分摊需统一 share_ratio;否则 cost_u 难以可比。
X. 交付件与版本管理
- 交付件:
- SLOSpec.yaml(SLO 定义与预算);
- SLIReport.json(分维度窗口统计与近似器参数);
- ScoreReport.json(score、s_k、灵敏度与门限);
- Plan.yaml(容量计划与回退阈值);
- 审计包(聚合器 fingerprint、签名与发布指纹)。
- 版本策略:
变更 SLI 定义、聚合器或窗口 W/Δt、w_*、或任何 target/budget,须提升次版本并在附录C登记;若改变评分结构或成本模型项,提升主版本并更新 fingerprint = hash( SLOSpec || ScoreSpec )。
版权与许可(CC BY 4.0)
版权声明:除另有说明外,《能量丝理论》(含文本、图表、插图、符号与公式)的著作权由作者(“屠广林”先生)享有。
许可方式:本作品采用 Creative Commons 署名 4.0 国际许可协议(CC BY 4.0)进行许可;在注明作者与来源的前提下,允许为商业或非商业目的进行复制、转载、节选、改编与再分发。
署名格式(建议):作者:“屠广林”;作品:《能量丝理论》;来源:energyfilament.org;许可证:CC BY 4.0。
首次发布: 2025-11-11|当前版本:v5.1
协议链接:https://creativecommons.org/licenses/by/4.0/