目录 / 文档-技术白皮书 / 16-EFT.WP.Methods.Cleaning v1.0
一句话目标:在 G=(V,E) 的执行图上实现可控吞吐的在线清洗,利用背压与水位线形成稳定闭环,保证质量断言满足后进行持续发布与回放。
I. 范围与对象
- 对象与输入输出
- 输入:事件流 S_in,载荷字段遵循第3章标准模式 SRef,时间基于 tau_mono,发布在 ts。
- 执行图:G=(V,E),其中 V 为 I10-* 清洗算子节点,E 为有界通道 chan。
- 输出:连续产物流 S_out 与滚动 manifest.stream(含 wm, rho, q_len, P99 等)。
- 约束与边界
- 资源与容量:每条通道声明 cap 与瞬时队长 q_len。
- 语义:至少一次投递(at_least_once),下游 sink 以 idempotent(pk) 实现幂等。
- 质量:执行第4–10章的所有断言在滑动窗口内持续满足。
II. 名词与变量
- 吞吐与服务
- 到达率:lambda_in;服务率:mu_proc;利用率:rho = lambda_in / mu_proc。
- 队列:q_len,容量:cap,等待:W_q,服务时间:S_service。
- 端到端时延:W_e2e = W_q + S_service + W_retry。
- 背压与整形
- 信用窗:credit = max( 0 , cap - q_len );令牌桶:r_token, B_burst。
- 水位线:wm(事件时水位,单位与字段见第5章);迟到上界:lateness_max。
- 可靠性与幂等
重试率:r_retry;丢弃率:p_drop;重复标识:dup_tag;追溯:TraceID。 - 质量与SLO
指标:P99, drift, q_score, TS.sli.ingest_lag, TS.sli.queue_depth, TS.sli.throughput。
III. 公设(P111-*)
- P111-01 稳定性公设
稳态每条 chan 要求 rho < 1,且实施目标 rho ≤ rho_target < 1。 - P111-02 幂等优先公设
sink 必提供 idempotent(pk);仅在 sink_ack ∧ dedup_ok 后提交上游偏移。 - P111-03 时基与水位线公设
窗口化计算在 tau_mono 上进行;发布以 ts;wm 单调非降,迟到事件仅在 lateness_max 内参与修正。 - P111-04 背压优雅降载公设
当 q_len → cap 时优先限流与延后而非无限排队;必要时按策略 shed(policy) 有界丢弃。 - P111-05 两口径一致公设(流式)
任一涉及 T_arr 的在线计算同时输出两口径与 delta_form,并在窗口内断言阈值 tol_Tarr。 - P111-06 可回放公设
事件持久化具可重放性,重放不得破坏 idempotent(pk) 与断言历史。
IV. 最小方程(S111-*)
- S111-01 稳定条件
rho = lambda_in / mu_proc,要求 rho < 1。 - S111-02 小法则(稳态)
L = lambda_in * W,其中 L 为系统内平均并发量,W 为平均逗留时间。用于估算 W_q 与容量规划。 - S111-03 队列演化(离散步)
q_len(t+Delta_t) = max( 0 , min( cap , q_len(t) + lambda_in * Delta_t - mu_proc * Delta_t ) )。 - S111-04 信用背压
credit = max( 0 , cap - q_len );上游发送窗口 win_send = min( credit , B_burst )。 - S111-05 令牌桶整形
tokens(t+Delta_t) = min( B_burst , tokens(t) + r_token * Delta_t );当 tokens ≥ cost(msg) 方可放行并 tokens -= cost(msg)。 - S111-06 水位线推进
wm_out = min( wm_in , ( min( ts(batch) ) - lateness_max ) );要求 non_decreasing(wm_out)。 - S111-07 端到端SLO
P99(W_e2e) ≤ tol_p99;TS.sli.ingest_lag ≤ tol_lag;p_drop ≤ tol_drop;dup_rate ≤ tol_dup。 - S111-08 到达时两口径(流式窗口)
delta_form = | ( 1 / c_ref ) * ( ∫ n_eff d ell ) - ( ∫ ( n_eff / c_ref ) d ell ) |,在滑动窗口 Delta_t 内要求 delta_form ≤ tol_Tarr。
V. 清洗流程(M10-11 流式闭环)
- 拓扑与策略装配
载入 G=(V,E) 与 policy = {cap, rho_target, lateness_max, r_token, B_burst};为每条 chan 注册度量 TS.sli.*。 - 入口与解码
校验 schema(第3章)、unit/dim(第4章),失败事件打 m=0 并隔离到 S_quarantine。 - 时间与水位
映射 ts -> tau_mono,记录 offset/skew/J(第5章);推进并广播 wm;迟到事件在 lateness_max 内重算窗口。 - 路径与到达时
在节点需要处并行计算 T_arr 两口径并生成 delta_form(第6章)。 - 缺失与异常在线治理
维护 m ∈ {0,1},插补以 corr_env(x; RefCond) 记录(第7章);离群检测与降权标注(第8章)。 - 去重与参照
以窗口 Delta_t 和键 {pk, k_biz} 去重;验证 foreign_key(第9章)。 - 背压与整形
计算 q_len, credit, tokens;若 rho > rho_target 或 q_len ≥ cap,触发 throttle 或 shed(policy)。 - 写入与提交
通过 idempotent(pk) 写入下游;sink_ack ∧ dedup_ok 后提交上游偏移;落盘 manifest.stream 切片。 - 闸门与告警
在线断言 P99(W_e2e), dup_rate, p_drop, delta_form;违例触发降级与回退策略。
VI. 契约与断言(流式增量)
- 吞吐与稳定
rho ≤ rho_target,q_len ≤ cap,TS.sli.queue_depth_p99 ≤ tol_qp99。 - 时间与水位
non_decreasing(wm),TS.sli.ingest_lag ≤ tol_lag,late_ratio ≤ tol_late。 - 质量与异常
q_score ≥ q_min,drift ≤ tol_drift,outlier_share ≤ tol_outlier。 - 到达时两口径
arrival_forms(delta_form, tol_Tarr) 在窗口 Delta_t 内持续满足。 - 幂等与重复
dup_rate ≤ tol_dup,idempotency_fail_rate = 0,offset_commit_after_sink = true。
VII. 实现绑定(I10-11,核心原型)
- run_stream_graph(G, policy) -> sli_stream:编排执行图与策略,实时产出 TS.sli.*。
- credit_backpressure(chan, cap, rho_target) -> control:计算 credit 与节流信号。
- token_bucket(name, r_token, B_burst) -> gate(msg) -> pass|delay|drop:统一流量整形。
- emit_watermark(stream, lateness_max, ts_field) -> wm:事件时水位线推进。
- idempotent_sink(sink, pk) -> writer:提供 put(msg), ack(trace),并保证重复写幂等。
- window_contract(stream, Delta_t, tests) -> report:在滑动窗口内执行第4–10章断言集。
- shed(policy, msg) -> {drop|defer|route}:在背压下的有界丢弃与旁路策略。
不变量:
- 所有 I10-11 算子不改变 unit(x), dim(x), gamma(ell) 定义;仅在窗口内计算与标注。
- 对同一 TraceID 的重放保持相同 writer 结果(幂等)。
VIII. 交叉引用
- 通道与并发模型:见《EFT.WP.Core.Threads v1.0》。
- 采集与到达时:见《EFT.WP.Core.Sea v1.0》。
- 模式与契约:见《EFT.WP.Core.DataSpec v1.0》。
- 归一化口径与密度:见《EFT.WP.Core.Density v1.0》。
- 本卷第4–10章的单位、时基、路径、缺失、异常、参照与发布闸门。
IX. 质量度量与风控
- SLI/指标
- TS.sli.throughput, TS.sli.queue_depth, TS.sli.ingest_lag, P99(W_e2e), dup_rate, p_drop, delta_form_p95。
- 目标示例:rho_target = 0.7,tol_p99, tol_lag, tol_dup, tol_drop。
- 风控动作
- rho > rho_target → 启动 credit_backpressure 与 token_bucket。
- P99(W_e2e) > tol_p99 → 收紧 B_burst,扩大 lateness_max 或降级计算精度。
- dup_rate > tol_dup → 强化 idempotent(pk) 索引与窗口去重粒度。
- delta_form 超阈 → 降载相关算子,进入只读旁路,触发第10章回退通道。
小结
本章给出流式清洗的稳定性条件 rho < 1、水位线推进与信用/令牌双机制的背压闭环,在线复用两口径与契约断言,形成“限流→校核→发布→回放”的持续运行机制。产出物包含 S_out 与滚动 manifest.stream,其关键键为 TraceID, wm, rho, q_len, P99, dup_rate, delta_form。
版权与许可(CC BY 4.0)
版权声明:除另有说明外,《能量丝理论》(含文本、图表、插图、符号与公式)的著作权由作者(“屠广林”先生)享有。
许可方式:本作品采用 Creative Commons 署名 4.0 国际许可协议(CC BY 4.0)进行许可;在注明作者与来源的前提下,允许为商业或非商业目的进行复制、转载、节选、改编与再分发。
署名格式(建议):作者:“屠广林”;作品:《能量丝理论》;来源:energyfilament.org;许可证:CC BY 4.0。
首次发布: 2025-11-11|当前版本:v5.1
协议链接:https://creativecommons.org/licenses/by/4.0/