05-EFT.WP.Core.Errors v1.0 | 第7章恢复策略与鲁棒运行

目录／文档-技术白皮书（V5.05）／ 05-EFT.WP.Core.Errors v1.0

第7章恢复策略与鲁棒运行

I. 目标与范围

目标：在已建立的记录—追踪—诊断闭环基础上，定义可验证、可组合的恢复策略，使系统在存在误差 e、重尾残差 r、环境漂移与数值不稳定时仍保持可用性与可溯源性。
范围：涵盖 retry(policy)、fallback(models, voting)、graceful_degradation(state, rules) 三类策略，以及与 SLI/SLO、误差预算 EB、到达时量 T_arr = ( ∫_gamma ( n_eff / c_ref ) d ell ) 的耦合。

II. 状态与术语

运行状态：OK、WARN、ERROR、DEGRADED、FALLBACK、RECOVERED。
触发器：chi2 = r^T R r、|r_bar|、pass_rate、drift_score(p,q,"KL")、latency_ms。
成本与效用：C(op)（操作代价），U_svc(mode)（服务效用，mode ∈ {full,partial,minimal}）。
成功概率与预算：p_succ，B_retry（重试预算，单位可为次数或时间）。

III. 公设（恢复与鲁棒）

P77-1（有限预算）：任一策略须满足 expected_cost ≤ B_retry，超过预算须转入降级或回退。
P77-2（单调改进）：若策略输出 chi2/dof、|r_bar|_max、U 三项都未改善，则禁止继续相同策略分支的重入。
P77-3（证据绑定）：恢复决策必须与触发它的事件共享同一 trace_id，并将所用工件附着入 traceability_chain（见第6章）。

IV. 重试策略（Retry）

调度模型
- 指数退避：t_k = min( t_init * alpha^k + jitter_k , t_max )，其中 alpha > 1，jitter_k ~ Uniform( -beta * t_k , beta * t_k )。
- 有界次数：N_max 次尝试后进入回退或降级。
成功概率与预算估计
- 在独立同分布近似下，P_succ(N) = 1 - (1 - p_succ)^N。
- 期望成本：E[C_retry] = ∑_{k=0}^{N-1} P(fail^k) * C_attempt(k)，需满足 P77-1。
数值稳定性重试
- 网格细化：若 p_hat < p_target（见第5章），按 h_{k+1} = h_k / 2 重试，代价 C_attempt(k) 随计算量上升；
- 舍入补偿：采用补偿求和后再试，记录 E_round_hat 变化量进入 EB。
触发与停止条件（S77-1）
- 触发：(chi2/dof > chi2_max) OR (pass_rate < target) OR (drift_score ≥ drift_max)。
- 停止：(P_succ(N) ≥ P_min) OR (E[C_retry] > B_retry) OR (k ≥ N_max)。

V. 回退策略（Fallback）

回退集合与投票
- 模型池：models = [m_0, m_1, ..., m_K]，其中 m_0 为主模型。
- 投票口径：
  1. weighted：y_hat = ∑_j w_j * m_j(x)，w_j >= 0，∑ w_j = 1；权重与验证集 RMSE_j 或在线 chi2_j 反比。
  2. median-of-means：对分块均值取中位数，抗重尾。
切换判据（S77-2）
若存在 j 使得 chi2_j/dof < chi2_0/dof - delta_chi2 且 U_j ≤ U_budget，则切换到 m_j 或采用加权集成。
溯源与一致性
切换必须记录 model_id_from -> model_id_to、evidence_refs、expected_delta(chi2)；报告中写入 fallback=models, voting=...。

VI. 降级策略（Graceful Degradation）

模式分级
- full：全部特性开启；
- partial：关闭非核心或耗时路径，保持关键测量 measurand 与 U 的合规输出；
- minimal：仅输出最小可用集（值、U、EB、traceability_chain）。
规则表达（S77-3）
- 以谓词—动作对表示：if cond(x, r, SLI) then action(mode, knobs)。
- 示例：if (latency_ms > L_max) AND (chi2/dof ≤ chi2_soft) then action(partial, {disable_heavy_postproc=true})。
判定与防护带
对规格限判定仍沿用计量卷 guard_band(result, U, tol)；在 DEGRADED 下，报告须显式标注 mode 与 effective_tol。

VII. 策略组合与优先级

组合序列（S77-4）
- 缺省顺序：retry → fallback → graceful_degradation。
- 若 drift_score 超阈值，优先执行 fallback（替换模型）而非盲目重试。
决策函数
policy_decision = argmax_{strategy} { E[U_svc] - lambda * E[C(strategy)] }，lambda > 0 为成本权重。
并行与互斥
禁止同一 span_id 内的并行回退与降级；允许跨 span 并行，但需共享 trace_id。

VIII. 与 SLI/SLO 的耦合

sli_slo_compute 输出用于门控：
例：pass_rate ≥ 0.99 且 latency_p95 ≤ 200 ms → OK；否则进入 WARN/ERROR 并触发策略。
阈值自适应
在 StudentT(nu) 重尾场景，改用分位数门控：|r_bar|_q ≤ t_q，q ∈ {0.90, 0.95}，避免均值敏感。

IX. 到达时 T_arr 的鲁棒运行示例

触发背景
计算 T_arr = ( ∫_gamma ( n_eff / c_ref ) d ell ) 时出现 chi2/dof = 1.9、p_hat = 2.7、drift_score = 0.13。
策略执行
- retry：细化 h -> h/2 并启用补偿求和；若 E[C_retry] > B_retry 停止。
- fallback：将 n_eff 的估计从 m_0 切换至 m_1（重尾回归或 StudentT(nu)）；记录 model_id 迁移与 delta(chi2)。
- graceful_degradation：若仍不满足 latency_p95，切换为 partial 模式，固定 c_ref 于标称并延后 corr_env(·; RefCond) 的细致评估。
报告要点
mode="partial"，value、U、EB、path_spec、h、p_hat、traceability_chain 必填；声明“到达时两口径”选择与原因。

X. 接口映射与约束

retry(policy:dict) -> callable
关键键：t_init，alpha，beta，t_max，N_max，B_retry，P_min，p_target。
fallback(models:list, voting:str="weighted") -> any
关键键：weights 或 block_size（用于 median-of-means），delta_chi2，U_budget。
graceful_degradation(state:any, rules:dict) -> any
关键键：modes={full,partial,minimal}，knobs，effective_tol。
共同约束
每次策略动作均调用 log_event 并更新 traceability_chain（见第6章）；禁止绕过最小证据集。

XI. 恢复流程 Mx-5（决策—执行—验证）

读取监测量：chi2/dof、|r_bar|_max、pass_rate、drift_score、latency_p95。
选择策略：按 S77-4 计算 policy_decision；若 drift_score 超阈，优先 fallback。
执行动作：运行 retry 或 fallback 或 graceful_degradation；记录成本与证据。
事后验证：复测 SLI 与计量项（value、U、EB）；若 P77-2 未达成改进，切换分支。
收敛与退出：达到 SLO 或所有分支耗尽；输出 RECOVERED 或持久化 DEGRADED 报告。

XII. 报告最小字段（恢复特有）

strategy，params_used，attempts，E[C]，P_succ_hat，delta(chi2)，delta(latency_p95)。
mode（若降级），effective_tol，features_disabled。
model_transition（若回退），weights 或 block_size。

XIII. 安全与合规

资源闸门：为 retry 与 fallback 设置并强制 B_retry 与 N_max，避免级联放大。
可审计性：所有策略分支的失败路径必须保留事件与工件，且带 hash 与 created_at。

XIV. 本章输出与衔接

输出：P77-1…P77-3 公设，S77-1…S77-4 策略判据与组合口径，Mx-5 流程与最小报告集。
衔接：第8章将把本章策略与到达时两口径、I40/I50 接口进行端到端回归与跨卷一致性验证。

版权与许可：除另有说明外，《能量丝理论》（含文本、图表、插图、符号与公式）的著作权由作者（屠广林）享有。
许可方式（CC BY 4.0）：在注明作者与来源的前提下，允许复制、转载、节选、改编与再分发。
署名格式（建议）：作者：屠广林｜作品：《能量丝理论》｜来源：energyfilament.org｜许可证：CC BY 4.0
验证召集： 作者独立自费、无雇主无资助；下一阶段将优先在最愿意公开讨论、公开复现、公开挑错的环境中推进落地，不限国家。欢迎各国媒体与同行抓住窗口组织验证，并与我们联系。
版本信息： 首次发布：2025-11-11 ｜当前版本：v6.0+5.05