目录 / 文档-技术白皮书 / 16-EFT.WP.Methods.Cleaning v1.0
一句话目标:汇总本卷 I10-* 接口的签名、参数、返回与不变量,并给出与 Core 卷的映射与调用序列约定。
I. 统一约定与命名
- 记号与类型
- ds:数据集(记录序列)
- rec:单条记录
- SRef:标准模式注册与约束
- policy.*:策略包(单位、时间、异常、SLO 等)
- tests.*:契约测试组
- tags:标注与告警集合
- TS.sli.*:服务层指标
- manifest:清单与签名制品
- TraceID:端到端追溯标识
- 预设不变量(适用于所有接口)
- 单位量纲:进入方程的字段具备 unit(x) 与 dim(x),check_dim(expr)=0。
- 时基:内部在 tau_mono,发布在 ts,同步元信息含 offset/skew/J。
- 到达时两口径:凡计算 T_arr 必并行产出两口径与 delta_form ≤ tol_Tarr。
- 路径:non_decreasing(ell),L_gamma = ( ∫_gamma 1 d ell ) 可计算。
- 追溯:输出均可计算 hash_sha256(blob) 并可由 signature 验证。
II. 核心数据结构(摘要)
- registry:{ alias_map, required_fields, pk, idx_k, foreign_key, unit_rules }
- sync_ref:{ anchor, clock_model, max_skew, max_J }
- policy.units:{ system, conversions, tolerance }
- policy.slo:{ targets, EB, burn_thresholds }
- strategy.missing:{ mark_mask, drop_rules, impute_rules, env_ref=RefCond }
- tests.*:{ dim, unique, monotone, foreign_key, range, arrival_forms }
III. I10-3 标准输入与模式绑定
- register_schema(SRef) -> registry_id
- 效果:登记标准模式及其别名、键与契约子集。
- 不变量:unique(pk),alias_map 无冲突。
- standardize_names(ds, registry) -> ds', report
- 作用:按 alias_map 统一字段名并补齐最小词条集。
- 报告键:added, renamed, dropped, missing_required。
- validate_dataset(ds, SRef, strict) -> assert_report
- 校验:字段存在性、类型、pk 唯一、foreign_key 可解。
- 通过条件:assert_report.fail=0。
IV. I10-4 单位、量纲与计量一致化
- repair_units(ds, policy.units) -> ds', report
- 作用:单位归一、量纲校核、数值转换。
- 不变量:对任意表达 y - f(x),check_dim( y - f(x) )=0。
- 报告键:converted, coerced, rejected.
- check_dim_expr(ds, exprs[]) -> report
用途:批量验证关键表达的量纲守恒。
V. I10-5 时间轴与同步清洗
- align_timebase(ds, sync_ref) -> ds', timing_report
- 作用:建立 tau_mono ↔ ts 映射,估计并记录 offset/skew/J。
- 不变量:non_decreasing(tau_mono)。
- 报告键:offset, skew, J, u(offset), dropped_out_of_window.
- resample_window(ds, Delta_t, mode) -> ds'
用途:窗口化对齐与聚合,保持时间语义一致。
VI. I10-6 路径与到达时清洗
- enforce_arrival_time_convention(ds, c_ref, tol_Tarr) -> ds', delta_report
- 计算:
- T_arr_1 = ( 1 / c_ref ) * ( ∫_{gamma(ell)} n_eff d ell )
- T_arr_2 = ( ∫_{gamma(ell)} ( n_eff / c_ref ) d ell )
- delta_form = | T_arr_1 - T_arr_2 |
- 断言:delta_form ≤ tol_Tarr;落盘两口径与 delta_form。
- 报告键:count, violations, P99(delta_form)。
- 计算:
- check_path_monotonicity(ds, ell_field) -> report
校验:non_decreasing(ell) 与 L_gamma 可计算性。
VII. I10-7 缺失、掩码与插补治理
- handle_missing(ds, strategy.missing) -> ds', manifest_missing
- 行为:掩码生成 m ∈ {0,1},按规则丢弃/插补,记录 RefCond 与不确定度。
- 不变量:插补字段显式标注来源与方法。
- 清单键:mask_coverage, impute_method, u(imputed)。
- mark_quality(ds, rules) -> ds'
用途:生成或更新 q_score ∈ [0,1] 的构成项(覆盖、完整性、时效性)。
VIII. I10-8 异常、漂移与离群治理
- detect_outlier(ds, method, fields, Delta_t, params) -> tags, report
- 方法示例:zscore, MAD, IQR, robust_lof。
- 报告键:rate, by_field, suppressed.
- monitor_drift(ds, ref, method, Delta_t) -> drift, report
- 用途:分布漂移检测(如 KS, PSI, ADWIN, CUSUM)。
- 不变量:触发阈值时不改变原数据,仅打标与出警。
IX. I10-9 去重、关联与参照完整性
- deduplicate(ds, keys, semantics, tiebreaker) -> ds', dup_report
- 语义示例:exact, time_window, fuzzy.
- 不变量:unique(keys) 成立。
- 报告键:groups, resolved, conflicts.
- drop_orphan(ds, foreign_key) -> ds', fk_report
- 作用:清理外键孤儿记录并计数。
- 不变量:foreign_key 全量可解。
X. I10-10 合规、契约与发布冻结
- assert_contract(ds, tests.*) -> assert_report, pass
- 覆盖:unique, monotone, range, foreign_key, dim, arrival_forms.
- 不变量:pass = ( violations = 0 )。
- export_manifest(ds, context) -> manifest
内容:version, SRef, timing, units, arrival_forms, asserts, hash, signature。 - freeze_release(ds, tag) -> manifest
作用:冻结制品、签名与标签化,生成可审计快照。 - emit_audit(event) -> audit_head
用途:更新审计哈希链,事件含 who/when/what/hash_prev.
XI. I10-11 流式清洗与背压节点
- thr_node_align_timebase(msg, sync_ref) -> msg'
流式时间对齐节点,保持每条消息 TraceID。 - thr_node_detect_outlier(msg, state) -> msg', tags, state'
在线离群检测与状态更新。 - thr_backpressure_controller(metrics, policy) -> throttle_cmd
规则:当 rho = lambda / mu > rho_max 或 burn ≥ burn_hi 输出限流/降级指令。
XII. I10-12 环境修正与到达时一致化
apply_env_correction(ds, RefCond, model) -> ds', corr_report- 作用:执行 corr_env(x; RefCond),并对涉及 T_arr 的字段重算两口径。
- 不变量:P99(delta_form) 不上升;报告 before/after.
XIII. I10-13 密度、概率与归一化清洗
- normalize_density(ds, p_field, domain, measure) -> ds', norm_report
断言:( ∫_domain p_field d measure ) = 1,误差 eps_norm 落盘。 - check_mass_conservation(ds, rho_field, V_domain) -> res_mass, report
断言:res_mass = ( ∫_V rho dV ) - M_ref 在阈值内。 - spectral_energy_check(ds, S_field, band, measure) -> res_energy
用途:谱密度与能量一致核对。
XIV. I10-14 质量评分、SLO 与审计
- compute_sli(metrics_source, policy.sli, Delta_t) -> TS.sli.*
产出:lat_ms, err_rate, fresh_age, delta_form, drift 等分位。 - score_quality(TS.sli.*, weights) -> q_score, breakdown
公式:q_score = clip( ( ∑ w_i * s_i ) / ( ∑ w_i ), 0, 1 ) 或几何式。 - manage_error_budget(TS.sli.*, policy.slo) -> EB, burn, action
行为:根据 burn 输出 hold/limit/rollback 的建议动作。
XV. I10-15 复合用例接口
- batch_clean_and_freeze(input_glob, tag, policy) -> ds_clean, manifest, audit_head
流程:I10-3 → I10-4 → I10-5 → I10-6 → I10-7 → I10-8 → I10-9 → I10-10。 - serve_clean_payload(req, policy, tol_Tarr) -> resp, tags
在线输入内清洗与两口径判断。 - stream_clean_aggregate(topic_in, Delta_t, rho_max) -> topic_out, topic_quarantine
事件流窗口化清洗、断言与背压闭环。 - recompute_arrival_on_drift(ds, threshold) -> ds', delta_report
当 drift > threshold 触发重算 T_arr。 - publish_quality_panel(q_score, TS.sli.*, EB, burn) -> panel
输出质量面板与告警。
XVI. 不变量与断言清单(跨接口)
- 键与路径
- unique(pk);foreign_key 全量可解;non_decreasing(ts|ell)。
- L_gamma = ( ∫_gamma 1 d ell ) 可计算。
- 量纲与单位
unit(t_arr)="s",dim(t_arr)="[T]";check_dim( y - f(x) )=0。 - 到达时两口径
delta_form = | ( 1 / c_ref ) * ( ∫ n_eff d ell ) - ( ∫ ( n_eff / c_ref ) d ell ) |;delta_form ≤ tol_Tarr。 - 质量与 SLO
P99(TS.sli.err_rate) ≤ E_target;P99(TS.sli.lat_ms) ≤ L_target;错误预算燃尽可追溯。 - 审计与签名
任一发布均具 hash_sha256(blob) 与 signature 且链式可验证。
XVII. 与 Core 卷的接口映射
- 《EFT.WP.Core.DataSpec v1.0》
映射:I10-3.* 与 SRef/registry、字段词条、键约束、单位规则。 - 《EFT.WP.Core.Sea v1.0》
映射:I10-6.* 的 gamma(ell), n_eff, c_ref, 路径采集与到达时语义。 - 《EFT.WP.Core.Threads v1.0`
映射:I10-11.* 流式节点、thr/chan、背压协议与限流指令。 - 《EFT.WP.Core.Density v1.0》
映射:I10-13.* 的测度、域与归一化公式。
XVIII. 版本与兼容策略
- 语义化版本:I10-x.y.z;x 为破坏性变更。
- 兼容窗:次版本向后兼容;接口弃用遵循两个小版本过渡。
- manifest.interface_versions 必含所用 I10-* 版本集合。
XIX. 典型调用序列(摘要)
- 批处理:standardize_names → repair_units → align_timebase → enforce_arrival_time_convention → handle_missing → detect_outlier → deduplicate → assert_contract → freeze_release。
- 在线:standardize_names → repair_units → align_timebase → enforce_arrival_time_convention (微批) → assert_contract (必要子集)。
- 流式:thr_node_align_timebase → thr_node_detect_outlier → stream_clean_aggregate → assert_contract → backpressure_controller。
小结
本附录对 I10-* 提供了统一的签名、输入输出、报告键与跨接口不变量,并标注与 Core 卷的映射点。读者据此可在批处理、在线与事件流场景复用接口,保证从模式绑定到发布冻结的“可计算、可审计、可回退”。
版权与许可(CC BY 4.0)
版权声明:除另有说明外,《能量丝理论》(含文本、图表、插图、符号与公式)的著作权由作者(“屠广林”先生)享有。
许可方式:本作品采用 Creative Commons 署名 4.0 国际许可协议(CC BY 4.0)进行许可;在注明作者与来源的前提下,允许为商业或非商业目的进行复制、转载、节选、改编与再分发。
署名格式(建议):作者:“屠广林”;作品:《能量丝理论》;来源:energyfilament.org;许可证:CC BY 4.0。
首次发布: 2025-11-11|当前版本:v5.1
协议链接:https://creativecommons.org/licenses/by/4.0/