目录文档-技术白皮书07-EFT.WP.Core.Threads v1.0

第8章 可观测性与SLO


I. 范围与目标


II. 名词与度量族

  1. 指标家族:SLI(service level indicator),SLO(target),SLA_window(评估窗口),EB(error budget)。
  2. 事件标识:eid、pid_thr、gid、chan、idemp_key;时钟 tau_mono(运行度量)、ts(审计)。
  3. 主要 SLI 维度
    • 可用性:SLI_avail = Good / Total。
    • 时延:P50/P90/P99、W、W_q、W_service。
    • 质量/错误:ErrRate = 1 - SLI_avail;语义成功率 SemOK/Total。
    • 吞吐与饱和:QPS、q_len、cap、bp、rho = lambda / mu。

III. 公设 P78(仪表、标签与时间)


IV. 最小方程 S78(SLO 与预算)


V. 指标设计(度量命名与示例)

  1. 计数器
    • threads.qps{endpoint,prio},threads.req_total{...},threads.good_total{...}。
    • chan.admit_total{chan},chan.drop_total{chan,reason}。
  2. 直方图
    • threads.latency_ms_bucket{endpoint}(固定桶),由其导出 P50/P90/P99。
    • chan.wait_ms_bucket{chan}(排队等待)。
  3. 量表
    chan.q_len{chan},bp.level{chan},lim.tokens{lim},rho{service}。
  4. 质量
    threads.err_total{code,reason},sem.ok_total{rule}。

VI. 追踪与关联(与 I70-7)

  1. 基本做法
    • 为每个请求创建根 span:span = trace_span("req", attrs={gid,pid_thr,endpoint})。
    • 线程切换或通道传递时 trace_link(span, eid);ACK 时记 attrs={"ack":true}。
  2. 关键事件
    入队:eid_in;出队:eid_out;重试:eid_retry(带 attempt);幂等命中:idemp_key。
  3. 采样策略
    基线采样率 p_sample;若 latency > L_obj 或 error,则强制保留;对第7章限流被拒的请求采样提升。

VII. 日志(结构化与隐私)


VIII. 告警与回滚闸门

  1. 多窗口燃尽
    • 建议阈值:b1 in [2,6](短窗高灵敏),b2 in [1,2](长窗稳健)。
    • 触发条件:Burn_rate(w1) >= b1 或 Burn_rate(w2) >= b2。
  2. 延迟门限
    P99 > L_obj*(1+alpha) 持续 >= w1/2 触发限流加严与降级;alpha in [0.1,0.3]。
  3. 升级顺序
    降 rps(第7章) → 降 K_thr(第6章) → 启用 fallback → 回滚发布 → 进入变更冻结。
  4. 复位条件
    连续 w2 内 Burn_rate(w2) < 0.5 且 P99 <= L_obj,方可解除加严。

IX. 合同断言模板(与 I70-8)


X. 与执行图的结合(第2章对齐)


XI. SLO 参数建议(基线区间)


XII. 运行流程 Mx-7(上线与治理)


XIII. 实现绑定(与 I70-7/I70-8)

  1. 指标上报
    • metric_emit("threads.req_total", 1, {endpoint,prio})
    • metric_emit("threads.good_total", 1, {endpoint})
    • metric_emit("chan.q_len", q_len, {chan})
  2. 追踪
    • span = trace_span("svc.handle", attrs={gid,pid_thr,endpoint})
    • trace_link(span, eid)
  3. 合同计算
    • sli_slo_compute({"type":"latency","quantile":0.99,"threshold_ms":200}, window="7d")
    • assert_thread_contract(G, tests=[...])

XIV. 跨卷锚点与时间校准

delta_form = | ( 1 / c_ref ) * ( ∫ n_eff d ell ) - ( ∫ ( n_eff / c_ref ) d ell ) |,作为时序校正不确定度。
T_arr = ( 1 / c_ref ) * ( ∫ n_eff d ell ) 与 T_arr = ( ∫ ( n_eff / c_ref ) d ell ) 并计算差异
当 SLI 涉及跨域链路时,可引入 T_arr 作为同步锚点;需提供路径 gamma(ell) 与测度 d ell,两口径

XV. 交付物与验收清单


版权与许可(CC BY 4.0)

版权声明:除另有说明外,《能量丝理论》(含文本、图表、插图、符号与公式)的著作权由作者(“屠广林”先生)享有。
许可方式:本作品采用 Creative Commons 署名 4.0 国际许可协议(CC BY 4.0)进行许可;在注明作者与来源的前提下,允许为商业或非商业目的进行复制、转载、节选、改编与再分发。
署名格式(建议):作者:“屠广林”;作品:《能量丝理论》;来源:energyfilament.org;许可证:CC BY 4.0。

首次发布: 2025-11-11|当前版本:v5.1
协议链接:https://creativecommons.org/licenses/by/4.0/