目录文档-技术白皮书16-EFT.WP.Methods.Cleaning v1.0

第15章 用例与参考实现


一句话目标:以三个端到端用例(离线批处理、在线服务、事件流)示范本卷 P/S/M/I 的落地组合,从“原始到可发布”的最小闭环到可审计发布。


I. 范围与对象

  1. 输入与环境
    • 离线批处理:分区原始数据 D_raw/day=*,模式参考 SRef,环境记录 RefCond。
    • 在线服务:请求流 req(ts), payload, TraceID,服务缓存与特征视图 view_*。
    • 事件流:主题 topic.in,分区键 pid 或业务键,窗口 Delta_t 与水位线。
  2. 输出与制品
    • 清洗后数据 ds'、manifest、audit.log、质量面板 quality_panel、发布标签 tag。
    • 中间产物:TS.sli.*、assert_report、delta_form、drift 标注与回退工单。

II. 名词与变量

  1. 数据与模式
    • SRef:标准模式注册;pk 主键;可选次键 idx_k;外键 foreign_key。
    • 路径与到达时:gamma(ell), L_gamma, T_arr, n_eff, c_ref, delta_form。
    • 时间与窗口:tau_mono, ts, Delta_t, offset/skew/J。
  2. 质量与度量
    • q_score ∈ [0,1], TS.sli.lat_ms, TS.sli.err_rate, TS.sli.fresh_age, TS.sli.delta_form, TS.sli.drift。
    • 错误预算与燃尽:EB, burn;分位:P95, P99。

III. 公设(P115-*)


IV. 最小方程(S115-*)


V. 清洗流程(M10-15)

  1. A. 用例1:离线批处理(日分区)
    • 读取与就绪:加载 D_raw/day=*,校验分区完备与 TraceID 连贯。
    • 模式绑定:ds1 = standardize_names(D_raw, SRef.registry);validate_dataset(ds1)。
    • 单位量纲:repair_units(ds1, policy.units);assert_contract(ds1, tests.dim)。
    • 时基对齐:ds2 = align_timebase(ds1, sync_ref),记录 offset/skew/J。
    • 路径与到达时:ds3 = enforce_arrival_time_convention(ds2),计算两口径与 delta_form。
    • 缺失与插补:ds4, manifest.missing = handle_missing(ds3, strategy),显式 m ∈ {0,1} 与 RefCond。
    • 异常与去重:tags = detect_outlier(ds4, method, fields);ds5 = deduplicate(ds4, keys, semantics)。
    • 契约断言:assert_report = assert_contract(ds5, tests.*),含 unique(pk), foreign_key, monotone(ell)。
    • 质量评分与 SLO:TS.sli.* = compute_sli(ds5, policy, Delta_t);q_score, slo_ok = score_quality(...)。
    • 冻结与发布:若 pass ∧ slo_ok 则 manifest = freeze_release(ds5, tag) 并签名;否则隔离与开单。
    • 审计:emit_audit(record) 更新哈希链,落盘 audit.log 与 manifest.signature。
  2. B. 用例2:在线服务(请求内清洗)
    • 接收请求:req(ts), payload, TraceID;入队前评估 rho 与 W_q。
    • 轻量模式绑定:payload' = standardize_names(payload, SRef.registry.cache)。
    • 单位与时基:执行 repair_units(payload') 与 align_timebase(payload')(低开销路径)。
    • 到达时两口径:对需要 T_arr 的请求进行微批两口径计算;若 delta_form > tol_Tarr 标注降权响应。
    • 缺失与回退:若 m=1 且无 RefCond,走旁路默认策略或降级答复;所有策略写入 TraceID。
    • 在线契约:即时 assert_contract(仅必要断言),失败返回可复现错误码与 TraceID。
    • 在线 SLI:更新 TS.sli.lat_ms, err_rate, fresh_age;若 P99(lat_ms) 逼近阈值,触发限流。
    • 审计与灰度:按 q_score 与 EB/burn 控制灰度比例;所有变更 emit_audit。
  3. C. 用例3:事件流(窗口化聚合)
    • 源与水位:消费 topic.in,基于事件时间 ts 设置水位与允许乱序 L_o。
    • 预清洗节点:standardize_names、repair_units、align_timebase 按消息执行,产出 topic.clean。
    • 到达时算子:在窗口 Delta_t 内对每条路径计算两口径 T_arr 与 delta_form,输出 topic.arrival。
    • 去重与关联:以 pk 或 (pid, ts_bin) 去重;基于 foreign_key 关联环境 RefCond 侧流。
    • 合并与断言:窗口关闭时运行 assert_contract 与 score_quality;q_score 与 TS.sli.* 入面板。
    • 背压闭环:当 rho > rho_max 或 burn ≥ burn_hi,下发节流指令至上游(见第11章)。
    • 出口与发布:合格窗口写 topic.out 与 manifest 快照;不合格写 topic.quarantine。

VI. 契约与断言

  1. 通用
    • unique(pk);foreign_key 全量可解;non_decreasing(ts|ell);check_dim(expr)=0。
    • arrival_forms(delta_form, tol_Tarr);P99(TS.sli.err_rate) ≤ E_target;P99(TS.sli.lat_ms) ≤ L_target。
  2. 用例特定
    • 批处理:分区覆盖 coverage(day)=100%,缺失标注完整 m 与 RefCond。
    • 在线:每请求包含可验证 TraceID 与 manifest.version 映射。
    • 事件流:窗口关闭延迟 ≤ L_o + J;乱序丢失率 ≤ r_drop。

VII. 实现绑定(I10-15.*)


VIII. 交叉引用


IX. 质量度量与风控

  1. 最小面板字段
    q_score, P99(TS.sli.lat_ms), P99(TS.sli.err_rate), P95(TS.sli.fresh_age), P99(TS.sli.delta_form), drift, EB, burn, viol_rate。
  2. 联动动作
    • P99(delta_form) 超阈 → 触发 apply_env_correction 与重算。
    • burn ≥ burn_hi → 限流/降级与冻结灰度窗口。
    • 审计链异常或签名校验失败 → 回退至上一个 tag,并通知数据所有者。

小结
本章以三个代表性场景给出从模式绑定、单位量纲与时基对齐,到两口径计算、缺失治理、异常与去重、契约断言、质量与 SLO、审计签名、背压闭环的全链组合。每个用例均以 I10-15.* 函数族可复用实现落地,并输出 ds', manifest, audit.log, quality_panel 与可回退 tag,满足“可计算、可审计、可回退”的发布要求。


版权与许可(CC BY 4.0)

版权声明:除另有说明外,《能量丝理论》(含文本、图表、插图、符号与公式)的著作权由作者(“屠广林”先生)享有。
许可方式:本作品采用 Creative Commons 署名 4.0 国际许可协议(CC BY 4.0)进行许可;在注明作者与来源的前提下,允许为商业或非商业目的进行复制、转载、节选、改编与再分发。
署名格式(建议):作者:“屠广林”;作品:《能量丝理论》;来源:energyfilament.org;许可证:CC BY 4.0。

首次发布: 2025-11-11|当前版本:v5.1
协议链接:https://creativecommons.org/licenses/by/4.0/