目录文档-技术白皮书05-EFT.WP.Core.Errors v1.0

第7章 恢复策略与鲁棒运行


I. 目标与范围


II. 状态与术语


III. 公设(恢复与鲁棒)


IV. 重试策略(Retry)

  1. 调度模型
    • 指数退避:t_k = min( t_init * alpha^k + jitter_k , t_max ),其中 alpha > 1,jitter_k ~ Uniform( -beta * t_k , beta * t_k )。
    • 有界次数:N_max 次尝试后进入回退或降级。
  2. 成功概率与预算估计
    • 在独立同分布近似下,P_succ(N) = 1 - (1 - p_succ)^N。
    • 期望成本:E[C_retry] = ∑_{k=0}^{N-1} P(fail^k) * C_attempt(k),需满足 P77-1。
  3. 数值稳定性重试
    • 网格细化:若 p_hat < p_target(见第5章),按 h_{k+1} = h_k / 2 重试,代价 C_attempt(k) 随计算量上升;
    • 舍入补偿:采用补偿求和后再试,记录 E_round_hat 变化量进入 EB。
  4. 触发与停止条件(S77-1)
    • 触发:(chi2/dof > chi2_max) OR (pass_rate < target) OR (drift_score ≥ drift_max)。
    • 停止:(P_succ(N) ≥ P_min) OR (E[C_retry] > B_retry) OR (k ≥ N_max)。

V. 回退策略(Fallback)

  1. 回退集合与投票
    • 模型池:models = [m_0, m_1, ..., m_K],其中 m_0 为主模型。
    • 投票口径:
      1. weighted:y_hat = ∑_j w_j * m_j(x),w_j >= 0,∑ w_j = 1;权重与验证集 RMSE_j 或在线 chi2_j 反比。
      2. median-of-means:对分块均值取中位数,抗重尾。
  2. 切换判据(S77-2)
    若存在 j 使得 chi2_j/dof < chi2_0/dof - delta_chi2 且 U_j ≤ U_budget,则切换到 m_j 或采用加权集成。
  3. 溯源与一致性
    切换必须记录 model_id_from -> model_id_to、evidence_refs、expected_delta(chi2);报告中写入 fallback=models, voting=...。

VI. 降级策略(Graceful Degradation)

  1. 模式分级
    • full:全部特性开启;
    • partial:关闭非核心或耗时路径,保持关键测量 measurand 与 U 的合规输出;
    • minimal:仅输出最小可用集(值、U、EB、traceability_chain)。
  2. 规则表达(S77-3)
    • 以谓词—动作对表示:if cond(x, r, SLI) then action(mode, knobs)。
    • 示例:if (latency_ms > L_max) AND (chi2/dof ≤ chi2_soft) then action(partial, {disable_heavy_postproc=true})。
  3. 判定与防护带
    对规格限判定仍沿用计量卷 guard_band(result, U, tol);在 DEGRADED 下,报告须显式标注 mode 与 effective_tol。

VII. 策略组合与优先级

  1. 组合序列(S77-4)
    • 缺省顺序:retry → fallback → graceful_degradation。
    • 若 drift_score 超阈值,优先执行 fallback(替换模型)而非盲目重试。
  2. 决策函数
    policy_decision = argmax_{strategy} { E[U_svc] - lambda * E[C(strategy)] },lambda > 0 为成本权重。
  3. 并行与互斥
    禁止同一 span_id 内的并行回退与降级;允许跨 span 并行,但需共享 trace_id。

VIII. 与 SLI/SLO 的耦合


IX. 到达时 T_arr 的鲁棒运行示例

  1. 触发背景
    计算 T_arr = ( ∫_gamma ( n_eff / c_ref ) d ell ) 时出现 chi2/dof = 1.9、p_hat = 2.7、drift_score = 0.13。
  2. 策略执行
    • retry:细化 h -> h/2 并启用补偿求和;若 E[C_retry] > B_retry 停止。
    • fallback:将 n_eff 的估计从 m_0 切换至 m_1(重尾回归或 StudentT(nu));记录 model_id 迁移与 delta(chi2)。
    • graceful_degradation:若仍不满足 latency_p95,切换为 partial 模式,固定 c_ref 于标称并延后 corr_env(·; RefCond) 的细致评估。
  3. 报告要点
    mode="partial",value、U、EB、path_spec、h、p_hat、traceability_chain 必填;声明“到达时两口径”选择与原因。

X. 接口映射与约束


XI. 恢复流程 Mx-5(决策—执行—验证)


XII. 报告最小字段(恢复特有)


XIII. 安全与合规


XIV. 本章输出与衔接


版权与许可(CC BY 4.0)

版权声明:除另有说明外,《能量丝理论》(含文本、图表、插图、符号与公式)的著作权由作者(“屠广林”先生)享有。
许可方式:本作品采用 Creative Commons 署名 4.0 国际许可协议(CC BY 4.0)进行许可;在注明作者与来源的前提下,允许为商业或非商业目的进行复制、转载、节选、改编与再分发。
署名格式(建议):作者:“屠广林”;作品:《能量丝理论》;来源:energyfilament.org;许可证:CC BY 4.0。

首次发布: 2025-11-11|当前版本:v5.1
协议链接:https://creativecommons.org/licenses/by/4.0/