16-EFT.WP.Methods.Cleaning v1.0 | 第11章流式清洗与背压闭环

目录／文档-技术白皮书（V5.05）／ 16-EFT.WP.Methods.Cleaning v1.0

第11章流式清洗与背压闭环

一句话目标：在 G=(V,E) 的执行图上实现可控吞吐的在线清洗，利用背压与水位线形成稳定闭环，保证质量断言满足后进行持续发布与回放。

I. 范围与对象

对象与输入输出
- 输入：事件流 S_in，载荷字段遵循第3章标准模式 SRef，时间基于 tau_mono，发布在 ts。
- 执行图：G=(V,E)，其中 V 为 I10-* 清洗算子节点，E 为有界通道 chan。
- 输出：连续产物流 S_out 与滚动 manifest.stream（含 wm, rho, q_len, P99 等）。
约束与边界
- 资源与容量：每条通道声明 cap 与瞬时队长 q_len。
- 语义：至少一次投递（at_least_once），下游 sink 以 idempotent(pk) 实现幂等。
- 质量：执行第4–10章的所有断言在滑动窗口内持续满足。

II. 名词与变量

吞吐与服务
- 到达率：lambda_in；服务率：mu_proc；利用率：rho = lambda_in / mu_proc。
- 队列：q_len，容量：cap，等待：W_q，服务时间：S_service。
- 端到端时延：W_e2e = W_q + S_service + W_retry。
背压与整形
- 信用窗：credit = max( 0 , cap - q_len )；令牌桶：r_token, B_burst。
- 水位线：wm（事件时水位，单位与字段见第5章）；迟到上界：lateness_max。
可靠性与幂等
重试率：r_retry；丢弃率：p_drop；重复标识：dup_tag；追溯：TraceID。
质量与SLO
指标：P99, drift, q_score, TS.sli.ingest_lag, TS.sli.queue_depth, TS.sli.throughput。

III. 公设（P111-*）

P111-01 稳定性公设
稳态每条 chan 要求 rho < 1，且实施目标 rho ≤ rho_target < 1。
P111-02 幂等优先公设
sink 必提供 idempotent(pk)；仅在 sink_ack ∧ dedup_ok 后提交上游偏移。
P111-03 时基与水位线公设
窗口化计算在 tau_mono 上进行；发布以 ts；wm 单调非降，迟到事件仅在 lateness_max 内参与修正。
P111-04 背压优雅降载公设
当 q_len → cap 时优先限流与延后而非无限排队；必要时按策略 shed(policy) 有界丢弃。
P111-05 两口径一致公设（流式）
任一涉及 T_arr 的在线计算同时输出两口径与 delta_form，并在窗口内断言阈值 tol_Tarr。
P111-06 可回放公设
事件持久化具可重放性，重放不得破坏 idempotent(pk) 与断言历史。

IV. 最小方程（S111-*）

S111-01 稳定条件
rho = lambda_in / mu_proc，要求 rho < 1。
S111-02 小法则（稳态）
L = lambda_in * W，其中 L 为系统内平均并发量，W 为平均逗留时间。用于估算 W_q 与容量规划。
S111-03 队列演化（离散步）
q_len(t+Delta_t) = max( 0 , min( cap , q_len(t) + lambda_in * Delta_t - mu_proc * Delta_t ) )。
S111-04 信用背压
credit = max( 0 , cap - q_len )；上游发送窗口 win_send = min( credit , B_burst )。
S111-05 令牌桶整形
tokens(t+Delta_t) = min( B_burst , tokens(t) + r_token * Delta_t )；当 tokens ≥ cost(msg) 方可放行并 tokens -= cost(msg)。
S111-06 水位线推进
wm_out = min( wm_in , ( min( ts(batch) ) - lateness_max ) )；要求 non_decreasing(wm_out)。
S111-07 端到端SLO
P99(W_e2e) ≤ tol_p99；TS.sli.ingest_lag ≤ tol_lag；p_drop ≤ tol_drop；dup_rate ≤ tol_dup。
S111-08 到达时两口径（流式窗口）
delta_form = | ( 1 / c_ref ) * ( ∫ n_eff d ell ) - ( ∫ ( n_eff / c_ref ) d ell ) |，在滑动窗口 Delta_t 内要求 delta_form ≤ tol_Tarr。

V. 清洗流程（M10-11 流式闭环）

拓扑与策略装配
载入 G=(V,E) 与 policy = {cap, rho_target, lateness_max, r_token, B_burst}；为每条 chan 注册度量 TS.sli.*。
入口与解码
校验 schema（第3章）、unit/dim（第4章），失败事件打 m=0 并隔离到 S_quarantine。
时间与水位
映射 ts -> tau_mono，记录 offset/skew/J（第5章）；推进并广播 wm；迟到事件在 lateness_max 内重算窗口。
路径与到达时
在节点需要处并行计算 T_arr 两口径并生成 delta_form（第6章）。
缺失与异常在线治理
维护 m ∈ {0,1}，插补以 corr_env(x; RefCond) 记录（第7章）；离群检测与降权标注（第8章）。
去重与参照
以窗口 Delta_t 和键 {pk, k_biz} 去重；验证 foreign_key（第9章）。
背压与整形
计算 q_len, credit, tokens；若 rho > rho_target 或 q_len ≥ cap，触发 throttle 或 shed(policy)。
写入与提交
通过 idempotent(pk) 写入下游；sink_ack ∧ dedup_ok 后提交上游偏移；落盘 manifest.stream 切片。
闸门与告警
在线断言 P99(W_e2e), dup_rate, p_drop, delta_form；违例触发降级与回退策略。

VI. 契约与断言（流式增量）

吞吐与稳定
rho ≤ rho_target，q_len ≤ cap，TS.sli.queue_depth_p99 ≤ tol_qp99。
时间与水位
non_decreasing(wm)，TS.sli.ingest_lag ≤ tol_lag，late_ratio ≤ tol_late。
质量与异常
q_score ≥ q_min，drift ≤ tol_drift，outlier_share ≤ tol_outlier。
到达时两口径
arrival_forms(delta_form, tol_Tarr) 在窗口 Delta_t 内持续满足。
幂等与重复
dup_rate ≤ tol_dup，idempotency_fail_rate = 0，offset_commit_after_sink = true。

VII. 实现绑定（I10-11，核心原型）

run_stream_graph(G, policy) -> sli_stream：编排执行图与策略，实时产出 TS.sli.*。
credit_backpressure(chan, cap, rho_target) -> control：计算 credit 与节流信号。
token_bucket(name, r_token, B_burst) -> gate(msg) -> pass|delay|drop：统一流量整形。
emit_watermark(stream, lateness_max, ts_field) -> wm：事件时水位线推进。
idempotent_sink(sink, pk) -> writer：提供 put(msg), ack(trace)，并保证重复写幂等。
window_contract(stream, Delta_t, tests) -> report：在滑动窗口内执行第4–10章断言集。
shed(policy, msg) -> {drop|defer|route}：在背压下的有界丢弃与旁路策略。

不变量：

所有 I10-11 算子不改变 unit(x), dim(x), gamma(ell) 定义；仅在窗口内计算与标注。
对同一 TraceID 的重放保持相同 writer 结果（幂等）。

VIII. 交叉引用

通道与并发模型：见《EFT.WP.Core.Threads v1.0》。
采集与到达时：见《EFT.WP.Core.Sea v1.0》。
模式与契约：见《EFT.WP.Core.DataSpec v1.0》。
归一化口径与密度：见《EFT.WP.Core.Density v1.0》。
本卷第4–10章的单位、时基、路径、缺失、异常、参照与发布闸门。

IX. 质量度量与风控

SLI/指标
- TS.sli.throughput, TS.sli.queue_depth, TS.sli.ingest_lag, P99(W_e2e), dup_rate, p_drop, delta_form_p95。
- 目标示例：rho_target = 0.7，tol_p99, tol_lag, tol_dup, tol_drop。
风控动作
- rho > rho_target → 启动 credit_backpressure 与 token_bucket。
- P99(W_e2e) > tol_p99 → 收紧 B_burst，扩大 lateness_max 或降级计算精度。
- dup_rate > tol_dup → 强化 idempotent(pk) 索引与窗口去重粒度。
- delta_form 超阈 → 降载相关算子，进入只读旁路，触发第10章回退通道。

小结
本章给出流式清洗的稳定性条件 rho < 1、水位线推进与信用/令牌双机制的背压闭环，在线复用两口径与契约断言，形成“限流→校核→发布→回放”的持续运行机制。产出物包含 S_out 与滚动 manifest.stream，其关键键为 TraceID, wm, rho, q_len, P99, dup_rate, delta_form。

版权与许可：除另有说明外，《能量丝理论》（含文本、图表、插图、符号与公式）的著作权由作者（屠广林）享有。
许可方式（CC BY 4.0）：在注明作者与来源的前提下，允许复制、转载、节选、改编与再分发。
署名格式（建议）：作者：屠广林｜作品：《能量丝理论》｜来源：energyfilament.org｜许可证：CC BY 4.0
验证召集： 作者独立自费、无雇主无资助；下一阶段将优先在最愿意公开讨论、公开复现、公开挑错的环境中推进落地，不限国家。欢迎各国媒体与同行抓住窗口组织验证，并与我们联系。
版本信息： 首次发布：2025-11-11 ｜当前版本：v6.0+5.05