目录 / 文档-技术白皮书 / 05-EFT.WP.Core.Errors v1.0
I. 目标与范围
- 目标:在已建立的记录—追踪—诊断闭环基础上,定义可验证、可组合的恢复策略,使系统在存在误差 e、重尾残差 r、环境漂移与数值不稳定时仍保持可用性与可溯源性。
- 范围:涵盖 retry(policy)、fallback(models, voting)、graceful_degradation(state, rules) 三类策略,以及与 SLI/SLO、误差预算 EB、到达时量 T_arr = ( ∫_gamma ( n_eff / c_ref ) d ell ) 的耦合。
II. 状态与术语
- 运行状态:OK、WARN、ERROR、DEGRADED、FALLBACK、RECOVERED。
- 触发器:chi2 = r^T R r、|r_bar|、pass_rate、drift_score(p,q,"KL")、latency_ms。
- 成本与效用:C(op)(操作代价),U_svc(mode)(服务效用,mode ∈ {full,partial,minimal})。
- 成功概率与预算:p_succ,B_retry(重试预算,单位可为次数或时间)。
III. 公设(恢复与鲁棒)
- P77-1(有限预算):任一策略须满足 expected_cost ≤ B_retry,超过预算须转入降级或回退。
- P77-2(单调改进):若策略输出 chi2/dof、|r_bar|_max、U 三项都未改善,则禁止继续相同策略分支的重入。
- P77-3(证据绑定):恢复决策必须与触发它的事件共享同一 trace_id,并将所用工件附着入 traceability_chain(见第6章)。
IV. 重试策略(Retry)
- 调度模型
- 指数退避:t_k = min( t_init * alpha^k + jitter_k , t_max ),其中 alpha > 1,jitter_k ~ Uniform( -beta * t_k , beta * t_k )。
- 有界次数:N_max 次尝试后进入回退或降级。
- 成功概率与预算估计
- 在独立同分布近似下,P_succ(N) = 1 - (1 - p_succ)^N。
- 期望成本:E[C_retry] = ∑_{k=0}^{N-1} P(fail^k) * C_attempt(k),需满足 P77-1。
- 数值稳定性重试
- 网格细化:若 p_hat < p_target(见第5章),按 h_{k+1} = h_k / 2 重试,代价 C_attempt(k) 随计算量上升;
- 舍入补偿:采用补偿求和后再试,记录 E_round_hat 变化量进入 EB。
- 触发与停止条件(S77-1)
- 触发:(chi2/dof > chi2_max) OR (pass_rate < target) OR (drift_score ≥ drift_max)。
- 停止:(P_succ(N) ≥ P_min) OR (E[C_retry] > B_retry) OR (k ≥ N_max)。
V. 回退策略(Fallback)
- 回退集合与投票
- 模型池:models = [m_0, m_1, ..., m_K],其中 m_0 为主模型。
- 投票口径:
- weighted:y_hat = ∑_j w_j * m_j(x),w_j >= 0,∑ w_j = 1;权重与验证集 RMSE_j 或在线 chi2_j 反比。
- median-of-means:对分块均值取中位数,抗重尾。
- 切换判据(S77-2)
若存在 j 使得 chi2_j/dof < chi2_0/dof - delta_chi2 且 U_j ≤ U_budget,则切换到 m_j 或采用加权集成。 - 溯源与一致性
切换必须记录 model_id_from -> model_id_to、evidence_refs、expected_delta(chi2);报告中写入 fallback=models, voting=...。
VI. 降级策略(Graceful Degradation)
- 模式分级
- full:全部特性开启;
- partial:关闭非核心或耗时路径,保持关键测量 measurand 与 U 的合规输出;
- minimal:仅输出最小可用集(值、U、EB、traceability_chain)。
- 规则表达(S77-3)
- 以谓词—动作对表示:if cond(x, r, SLI) then action(mode, knobs)。
- 示例:if (latency_ms > L_max) AND (chi2/dof ≤ chi2_soft) then action(partial, {disable_heavy_postproc=true})。
- 判定与防护带
对规格限判定仍沿用计量卷 guard_band(result, U, tol);在 DEGRADED 下,报告须显式标注 mode 与 effective_tol。
VII. 策略组合与优先级
- 组合序列(S77-4)
- 缺省顺序:retry → fallback → graceful_degradation。
- 若 drift_score 超阈值,优先执行 fallback(替换模型)而非盲目重试。
- 决策函数
policy_decision = argmax_{strategy} { E[U_svc] - lambda * E[C(strategy)] },lambda > 0 为成本权重。 - 并行与互斥
禁止同一 span_id 内的并行回退与降级;允许跨 span 并行,但需共享 trace_id。
VIII. 与 SLI/SLO 的耦合
- sli_slo_compute 输出用于门控:
例:pass_rate ≥ 0.99 且 latency_p95 ≤ 200 ms → OK;否则进入 WARN/ERROR 并触发策略。 - 阈值自适应
在 StudentT(nu) 重尾场景,改用分位数门控:|r_bar|_q ≤ t_q,q ∈ {0.90, 0.95},避免均值敏感。
IX. 到达时 T_arr 的鲁棒运行示例
- 触发背景
计算 T_arr = ( ∫_gamma ( n_eff / c_ref ) d ell ) 时出现 chi2/dof = 1.9、p_hat = 2.7、drift_score = 0.13。 - 策略执行
- retry:细化 h -> h/2 并启用补偿求和;若 E[C_retry] > B_retry 停止。
- fallback:将 n_eff 的估计从 m_0 切换至 m_1(重尾回归或 StudentT(nu));记录 model_id 迁移与 delta(chi2)。
- graceful_degradation:若仍不满足 latency_p95,切换为 partial 模式,固定 c_ref 于标称并延后 corr_env(·; RefCond) 的细致评估。
- 报告要点
mode="partial",value、U、EB、path_spec、h、p_hat、traceability_chain 必填;声明“到达时两口径”选择与原因。
X. 接口映射与约束
- retry(policy:dict) -> callable
关键键:t_init,alpha,beta,t_max,N_max,B_retry,P_min,p_target。 - fallback(models:list, voting:str="weighted") -> any
关键键:weights 或 block_size(用于 median-of-means),delta_chi2,U_budget。 - graceful_degradation(state:any, rules:dict) -> any
关键键:modes={full,partial,minimal},knobs,effective_tol。 - 共同约束
每次策略动作均调用 log_event 并更新 traceability_chain(见第6章);禁止绕过最小证据集。
XI. 恢复流程 Mx-5(决策—执行—验证)
- 读取监测量:chi2/dof、|r_bar|_max、pass_rate、drift_score、latency_p95。
- 选择策略:按 S77-4 计算 policy_decision;若 drift_score 超阈,优先 fallback。
- 执行动作:运行 retry 或 fallback 或 graceful_degradation;记录成本与证据。
- 事后验证:复测 SLI 与计量项(value、U、EB);若 P77-2 未达成改进,切换分支。
- 收敛与退出:达到 SLO 或所有分支耗尽;输出 RECOVERED 或持久化 DEGRADED 报告。
XII. 报告最小字段(恢复特有)
- strategy,params_used,attempts,E[C],P_succ_hat,delta(chi2),delta(latency_p95)。
- mode(若降级),effective_tol,features_disabled。
- model_transition(若回退),weights 或 block_size。
XIII. 安全与合规
- 资源闸门:为 retry 与 fallback 设置并强制 B_retry 与 N_max,避免级联放大。
- 可审计性:所有策略分支的失败路径必须保留事件与工件,且带 hash 与 created_at。
XIV. 本章输出与衔接
- 输出:P77-1…P77-3 公设,S77-1…S77-4 策略判据与组合口径,Mx-5 流程与最小报告集。
- 衔接:第8章将把本章策略与到达时两口径、I40/I50 接口进行端到端回归与跨卷一致性验证。
版权与许可(CC BY 4.0)
版权声明:除另有说明外,《能量丝理论》(含文本、图表、插图、符号与公式)的著作权由作者(“屠广林”先生)享有。
许可方式:本作品采用 Creative Commons 署名 4.0 国际许可协议(CC BY 4.0)进行许可;在注明作者与来源的前提下,允许为商业或非商业目的进行复制、转载、节选、改编与再分发。
署名格式(建议):作者:“屠广林”;作品:《能量丝理论》;来源:energyfilament.org;许可证:CC BY 4.0。
首次发布: 2025-11-11|当前版本:v5.1
协议链接:https://creativecommons.org/licenses/by/4.0/