目录 / 文档-技术白皮书 / 16-EFT.WP.Methods.Cleaning v1.0
一句话目标:以三个端到端用例(离线批处理、在线服务、事件流)示范本卷 P/S/M/I 的落地组合,从“原始到可发布”的最小闭环到可审计发布。
I. 范围与对象
- 输入与环境
- 离线批处理:分区原始数据 D_raw/day=*,模式参考 SRef,环境记录 RefCond。
- 在线服务:请求流 req(ts), payload, TraceID,服务缓存与特征视图 view_*。
- 事件流:主题 topic.in,分区键 pid 或业务键,窗口 Delta_t 与水位线。
- 输出与制品
- 清洗后数据 ds'、manifest、audit.log、质量面板 quality_panel、发布标签 tag。
- 中间产物:TS.sli.*、assert_report、delta_form、drift 标注与回退工单。
II. 名词与变量
- 数据与模式
- SRef:标准模式注册;pk 主键;可选次键 idx_k;外键 foreign_key。
- 路径与到达时:gamma(ell), L_gamma, T_arr, n_eff, c_ref, delta_form。
- 时间与窗口:tau_mono, ts, Delta_t, offset/skew/J。
- 质量与度量
- q_score ∈ [0,1], TS.sli.lat_ms, TS.sli.err_rate, TS.sli.fresh_age, TS.sli.delta_form, TS.sli.drift。
- 错误预算与燃尽:EB, burn;分位:P95, P99。
III. 公设(P115-*)
- P115-01 全链模式约束
任一用例的中间与终端制品均遵循 SRef 与 DataSpec 的字段与键约束。 - P115-02 两口径强制
一切 T_arr 相关计算同时产出两口径与 delta_form,并以 tol_Tarr 断言。 - P115-03 单位量纲守恒
任意跨源聚合前执行 repair_units 与 check_dim(expr)(见第4章)。 - P115-04 时基一体化
计算在 tau_mono 上进行、在 ts 上发布;同步元信息随 manifest 落盘(见第5章)。 - P115-05 可追溯与可回退
任一发布动作需签名与哈希链记录,违反 SLO 或错误预算耗尽即回退(见第10章、第14章)。
IV. 最小方程(S115-*)
- S115-01 发布判据(复用)
pass = check_dim ∧ arrival_forms ∧ contract_ok ∧ manifest_signed(见 S101-1)。 - S115-02 两口径与差异
T_arr = ( 1 / c_ref ) * ( ∫_{gamma(ell)} n_eff d ell ) 与 T_arr = ( ∫_{gamma(ell)} ( n_eff / c_ref ) d ell );
delta_form = | ( 1 / c_ref ) * ( ∫ n_eff d ell ) - ( ∫ ( n_eff / c_ref ) d ell ) |,delta_form ≤ tol_Tarr。 - S115-03 队列稳定与背压
rho = lambda / mu ≤ rho_max;当 rho > rho_max 触发限流与降级(见第11章)。 - S115-04 质量聚合与 SLO
q_score = clip( ( ∑ w_i * s_i ) / ( ∑ w_i ), 0, 1 ) 或几何式;
slo_ok(metric) = [ P99(metric) ≤ target ](见第14章)。
V. 清洗流程(M10-15)
- A. 用例1:离线批处理(日分区)
- 读取与就绪:加载 D_raw/day=*,校验分区完备与 TraceID 连贯。
- 模式绑定:ds1 = standardize_names(D_raw, SRef.registry);validate_dataset(ds1)。
- 单位量纲:repair_units(ds1, policy.units);assert_contract(ds1, tests.dim)。
- 时基对齐:ds2 = align_timebase(ds1, sync_ref),记录 offset/skew/J。
- 路径与到达时:ds3 = enforce_arrival_time_convention(ds2),计算两口径与 delta_form。
- 缺失与插补:ds4, manifest.missing = handle_missing(ds3, strategy),显式 m ∈ {0,1} 与 RefCond。
- 异常与去重:tags = detect_outlier(ds4, method, fields);ds5 = deduplicate(ds4, keys, semantics)。
- 契约断言:assert_report = assert_contract(ds5, tests.*),含 unique(pk), foreign_key, monotone(ell)。
- 质量评分与 SLO:TS.sli.* = compute_sli(ds5, policy, Delta_t);q_score, slo_ok = score_quality(...)。
- 冻结与发布:若 pass ∧ slo_ok 则 manifest = freeze_release(ds5, tag) 并签名;否则隔离与开单。
- 审计:emit_audit(record) 更新哈希链,落盘 audit.log 与 manifest.signature。
- B. 用例2:在线服务(请求内清洗)
- 接收请求:req(ts), payload, TraceID;入队前评估 rho 与 W_q。
- 轻量模式绑定:payload' = standardize_names(payload, SRef.registry.cache)。
- 单位与时基:执行 repair_units(payload') 与 align_timebase(payload')(低开销路径)。
- 到达时两口径:对需要 T_arr 的请求进行微批两口径计算;若 delta_form > tol_Tarr 标注降权响应。
- 缺失与回退:若 m=1 且无 RefCond,走旁路默认策略或降级答复;所有策略写入 TraceID。
- 在线契约:即时 assert_contract(仅必要断言),失败返回可复现错误码与 TraceID。
- 在线 SLI:更新 TS.sli.lat_ms, err_rate, fresh_age;若 P99(lat_ms) 逼近阈值,触发限流。
- 审计与灰度:按 q_score 与 EB/burn 控制灰度比例;所有变更 emit_audit。
- C. 用例3:事件流(窗口化聚合)
- 源与水位:消费 topic.in,基于事件时间 ts 设置水位与允许乱序 L_o。
- 预清洗节点:standardize_names、repair_units、align_timebase 按消息执行,产出 topic.clean。
- 到达时算子:在窗口 Delta_t 内对每条路径计算两口径 T_arr 与 delta_form,输出 topic.arrival。
- 去重与关联:以 pk 或 (pid, ts_bin) 去重;基于 foreign_key 关联环境 RefCond 侧流。
- 合并与断言:窗口关闭时运行 assert_contract 与 score_quality;q_score 与 TS.sli.* 入面板。
- 背压闭环:当 rho > rho_max 或 burn ≥ burn_hi,下发节流指令至上游(见第11章)。
- 出口与发布:合格窗口写 topic.out 与 manifest 快照;不合格写 topic.quarantine。
VI. 契约与断言
- 通用
- unique(pk);foreign_key 全量可解;non_decreasing(ts|ell);check_dim(expr)=0。
- arrival_forms(delta_form, tol_Tarr);P99(TS.sli.err_rate) ≤ E_target;P99(TS.sli.lat_ms) ≤ L_target。
- 用例特定
- 批处理:分区覆盖 coverage(day)=100%,缺失标注完整 m 与 RefCond。
- 在线:每请求包含可验证 TraceID 与 manifest.version 映射。
- 事件流:窗口关闭延迟 ≤ L_o + J;乱序丢失率 ≤ r_drop。
VII. 实现绑定(I10-15.*)
- batch_clean_and_freeze(input_glob, tag, policy) -> ds_clean, manifest, audit_head
组合 I10-*,按 M10-15.A 执行。 - serve_clean_payload(req, policy, tol_Tarr) -> resp, tags
请求内清洗与两口径判定,输出可追溯响应。 - stream_clean_aggregate(topic_in, Delta_t, rho_max) -> topic_out, topic_quarantine
窗口化两口径聚合、契约断言与背压协同。 - recompute_arrival_on_drift(ds, threshold) -> ds', delta_report
当 drift > threshold 触发到达时重算(与第8章联动)。 - publish_quality_panel(q_score, TS.sli.*, EB, burn) -> panel
面板与告警输出,供第14章质量治理使用。
VIII. 交叉引用
- 模式与字段契约:见《EFT.WP.Core.DataSpec v1.0》。
- 采集与到达时语义:见《EFT.WP.Core.Sea v1.0》。
- 执行图、背压与限流:见《EFT.WP.Core.Threads v1.0》与本卷第11章。
- 量纲与单位:本卷第4章;时间轴:本卷第5章;两口径:本卷第6章;缺失:本卷第7章;异常与漂移:本卷第8章;合规冻结:本卷第10章;质量与 SLO:本卷第14章;密度归一化:本卷第13章。
IX. 质量度量与风控
- 最小面板字段
q_score, P99(TS.sli.lat_ms), P99(TS.sli.err_rate), P95(TS.sli.fresh_age), P99(TS.sli.delta_form), drift, EB, burn, viol_rate。 - 联动动作
- P99(delta_form) 超阈 → 触发 apply_env_correction 与重算。
- burn ≥ burn_hi → 限流/降级与冻结灰度窗口。
- 审计链异常或签名校验失败 → 回退至上一个 tag,并通知数据所有者。
小结
本章以三个代表性场景给出从模式绑定、单位量纲与时基对齐,到两口径计算、缺失治理、异常与去重、契约断言、质量与 SLO、审计签名、背压闭环的全链组合。每个用例均以 I10-15.* 函数族可复用实现落地,并输出 ds', manifest, audit.log, quality_panel 与可回退 tag,满足“可计算、可审计、可回退”的发布要求。
版权与许可(CC BY 4.0)
版权声明:除另有说明外,《能量丝理论》(含文本、图表、插图、符号与公式)的著作权由作者(“屠广林”先生)享有。
许可方式:本作品采用 Creative Commons 署名 4.0 国际许可协议(CC BY 4.0)进行许可;在注明作者与来源的前提下,允许为商业或非商业目的进行复制、转载、节选、改编与再分发。
署名格式(建议):作者:“屠广林”;作品:《能量丝理论》;来源:energyfilament.org;许可证:CC BY 4.0。
首次发布: 2025-11-11|当前版本:v5.1
协议链接:https://creativecommons.org/licenses/by/4.0/