目录 / 文档-技术白皮书 / 22-EFT.WP.Metrology.Instrument v1.0
一句话目标:以标准化 SLI/SLO 与告警策略对仪器运行时健康、计量稳定性与分布漂移进行持续监控与闭环治理,保障长期可用、可追溯与可审计的计量链路。
I. 范围与对象
- 范围
- 适用于通过 SCPI/IVI 接入的通用测量仪器在生产与实验环境中的长期运行监控。
- 覆盖连接健康(会话/协议)、数据面健康(吞吐/丢包/时基)、计量健康(漂移/漂移率/不确定度)、合规健康(清单/签名/证书)。
- 输入
- 运行遥测:session_open_latency_ms, cmd_roundtrip_ms, throughput_sps, sample_loss_rate, buffer_util, STB/SRQ, err_code。
- 计量遥测:offset/skew/J, u(ts), U = k * u_c, SNR, gain, offset, temp, humidity。
- 分布遥测:psi, KL, W1, q_score。
- 输出
面板指标 panel.instrument.*、SLO 评估报告、分层告警与回退动作、manifest.instrument.sli 增量条目。
II. 名词与变量
- 时间与时基:ts, tau_mono, offset, skew, J, Delta_t。
- 队列与稳定度:lambda(入队速率),mu(处理速率),rho = lambda / mu。
- 指标与预算:SLI, SLO, p95/p99, alpha_budget(误警预算),downtime_budget。
- 漂移度量:psi(population stability index),KL, W1,drift_level,drift_slope。
- 健康度:H ∈ [0,1](越大越好),w_i(权重)。
III. 公设 P714-*
- P714-1(观测可再现):所有 SLI 以固定窗口 Delta_t 计算并记录计算口径与版本。
- P714-2(时基一体化):监控以 tau_mono 汇总,对外以 ts 发布,并同步记录 offset/skew/J 与 u(ts)。
- P714-3(稳态优先):运行稳定条件 rho < 1 为强制闸门,违约触发限流或降级。
- P714-4(误警可控):告警采用序贯统计,月度误警预算 alpha_month ≤ alpha_budget。
- P714-5(计量先于吞吐):在计量与吞吐冲突时,优先满足 U 与漂移约束,必要时降低速率或分辨率。
- P714-6(清单为准):所有监控结论必须在 manifest.instrument.sli 留痕并签名。
IV. 最小方程 S714-*
- S714-1(稳态与拥塞)
rho = lambda / mu,要求 rho < rho_max < 1。 - S714-2(健康度聚合)
H = 1 - ( w_1 * norm(sample_loss_rate) + w_2 * norm(ts_skew_p95) + w_3 * norm(J_p95) + w_4 * norm(err_rate) + w_5 * norm(drift_level) ),∑ w_i = 1。 - S714-3(EWMA 监控)
z_t = lambda_ewma * x_t + ( 1 - lambda_ewma ) * z_{t-1},当 |z_t - mu0| > L * sigma_z 触发预警。 - S714-4(CUSUM 漂移检出)
C_t^+ = max(0, C_{t-1}^+ + ( x_t - mu0 ) - k );C_t^- = max(0, C_{t-1}^- + ( mu0 - x_t ) - k );若 C_t^+ > h 或 C_t^- > h 则告警。 - S714-5(分布漂移度量)
psi = ( 1 / B ) * ( ∑ ( ( p_i - q_i ) * ln( p_i / q_i ) ) )(分箱稳定性指标,口径须固化);并并行计算 KL 与 W1。 - S714-6(误警预算消耗)
alpha_spent = ( ∑ alpha_t ),断言 alpha_spent ≤ alpha_budget。
V. 监控流程 M70-14(采集→聚合→评估→告警/回退→落盘)
- 指标采集
以滚动窗口 Delta_t 拉取运行遥测与计量遥测;对 ts 执行 align_timebase 并统计 offset/skew/J 与 u(ts)。 - 指标聚合
- 计算 SLI:session_open_latency_ms_p95/p99, cmd_roundtrip_ms_p95/p99, throughput_sps, sample_loss_rate, ts_skew_p95, J_p95, err_rate, rho。
- 计算计量与分布指标:U, SNR, gain/offset 漂移,psi/KL/W1。
- 契约评估
运行 assert_instrument_contract 与本章 C70-14* 规则;执行 EWMA/CUSUM 与误警预算。 - 告警与回退
分级触发:warn→minor→major→critical;对应限流、重配、重启会话、切换冗余或停止发布。 - 清单落盘
写入 manifest.instrument.sli:窗口、口径版本、指标、告警、处置、TraceID、signature。
VI. 契约与断言 C70-14*(示例阈值口径)
- throughput.ok:rho < 0.85 且 sample_loss_rate ≤ 1e-4。
- latency.ok:cmd_roundtrip_ms_p99 ≤ 50;session_open_latency_ms_p99 ≤ 1000。
- timebase.ok:|offset| ≤ 1e-6 s,|skew| ≤ 1e-7,J_p95 ≤ 5e-7 s,u(ts)_p95 ≤ 1e-6 s。
- errors.ok:scpi_error_rate ≤ 1e-3,queue_len = 0;SYST:ERR? = 0。
- metrology.stability:|gain_drift| ≤ gain_tol,|offset_drift| ≤ offset_tol,SNR_drop ≤ snr_tol。
- drift.ok:psi ≤ psi_tol 且 KL ≤ kl_tol 且 W1 ≤ w1_tol。
- health.ok:H ≥ H_min。
- alpha.budget.ok:alpha_spent ≤ alpha_budget。
- manifest.ok:non_decreasing(ts) 且 manifest.signature 验证通过。
VII. 实现绑定 I70-14*(接口原型、不变量)
- collect_runtime_metrics(sess, window) -> metrics(不变量:时间对齐字段 offset/skew/J/u(ts) 均存在)
- aggregate_sli(metrics, window) -> sli_report(不变量:p95/p99 与口径版本齐备)
- compute_health_score(sli_report, weights) -> H(不变量:0 ≤ H ≤ 1)
- detect_drift_instrument(ref, cur, methods) -> drift_report({psi, KL, W1, cusum, ewma})
- evaluate_slo(sli_report, contracts, budget) -> decision(不变量:预算累计单调)
- apply_runtime_mitigation(sess, decision) -> state'(限流/重配/重启/切换,幂等)
- emit_sli_manifest(sli_report, decision) -> manifest.instrument.sli(签名与追溯必填)
VIII. 交叉引用
- 时基与到达时一致化:见《EFT.WP.Metrology.TimeBase v1.0》第4、8–9章。
- 同步与延迟非对称:见《EFT.WP.Metrology.Sync v1.0》第4–8章。
- 清洗与发布冻结:见《EFT.WP.Methods.Cleaning v1.0》第10章与附录 C。
- 漂移度量与统计预算:见《EFT.WP.Methods.CrossStats v1.0》第7、14章与附录 D。
IX. 质量度量与风控
- 建议 SLI 名单
- 可用性:uptime_pct, session_open_latency_ms_p99。
- 性能:cmd_roundtrip_ms_p95/p99, throughput_sps, rho, buffer_util_p95。
- 数据面:sample_loss_rate, ts_skew_p95, J_p95, u(ts)_p95。
- 计量:U_p95, gain_drift_ppm_per_day, offset_drift_units, SNR_drop_db。
- 质量与合规:scpi_error_rate, manifest_emit_latency_ms, signature_fail_rate。
- SLO 设定(示例)
uptime_pct ≥ 99.9% / 30d;cmd_roundtrip_ms_p99 ≤ 50;sample_loss_rate ≤ 1e-4;ts_skew_p95 ≤ 1e-6 s;psi ≤ 0.1。 - 风控与回退
- major:自动限流(降低 lambda)、缩短窗口、提高 BAND 宽带至稳定响应;
- critical:切换冗余链路或备用仪器,冻结发布并触发人工校准;
- 复原后执行 postmortem 与根因字段落盘:RCA.cause, RCA.fix, RCA.action_items。
小结
- 本章以 P714-* / S714-* / M70-14 / C70-14* / I70-14* 建立了仪器运行时从指标采集、统计评估到告警与回退、清单落盘的闭环。
- 关键要义:rho < 1 的稳定条件、tau_mono→ts 的时基一体化、分布漂移与误警预算并重,以及 manifest.instrument.sli 的单一可信源发布。
版权与许可(CC BY 4.0)
版权声明:除另有说明外,《能量丝理论》(含文本、图表、插图、符号与公式)的著作权由作者(“屠广林”先生)享有。
许可方式:本作品采用 Creative Commons 署名 4.0 国际许可协议(CC BY 4.0)进行许可;在注明作者与来源的前提下,允许为商业或非商业目的进行复制、转载、节选、改编与再分发。
署名格式(建议):作者:“屠广林”;作品:《能量丝理论》;来源:energyfilament.org;许可证:CC BY 4.0。
首次发布: 2025-11-11|当前版本:v5.1
协议链接:https://creativecommons.org/licenses/by/4.0/