目录文档-技术白皮书16-EFT.WP.Methods.Cleaning v1.0

附录A 接口参考(I10 全集)


一句话目标:汇总本卷 I10-* 接口的签名、参数、返回与不变量,并给出与 Core 卷的映射与调用序列约定。


I. 统一约定与命名

  1. 记号与类型
    • ds:数据集(记录序列)
    • rec:单条记录
    • SRef:标准模式注册与约束
    • policy.*:策略包(单位、时间、异常、SLO 等)
    • tests.*:契约测试组
    • tags:标注与告警集合
    • TS.sli.*:服务层指标
    • manifest:清单与签名制品
    • TraceID:端到端追溯标识
  2. 预设不变量(适用于所有接口)
    • 单位量纲:进入方程的字段具备 unit(x) 与 dim(x),check_dim(expr)=0。
    • 时基:内部在 tau_mono,发布在 ts,同步元信息含 offset/skew/J。
    • 到达时两口径:凡计算 T_arr 必并行产出两口径与 delta_form ≤ tol_Tarr。
    • 路径:non_decreasing(ell),L_gamma = ( ∫_gamma 1 d ell ) 可计算。
    • 追溯:输出均可计算 hash_sha256(blob) 并可由 signature 验证。

II. 核心数据结构(摘要)


III. I10-3 标准输入与模式绑定

  1. register_schema(SRef) -> registry_id
    • 效果:登记标准模式及其别名、键与契约子集。
    • 不变量:unique(pk),alias_map 无冲突。
  2. standardize_names(ds, registry) -> ds', report
    • 作用:按 alias_map 统一字段名并补齐最小词条集。
    • 报告键:added, renamed, dropped, missing_required。
  3. validate_dataset(ds, SRef, strict) -> assert_report
    • 校验:字段存在性、类型、pk 唯一、foreign_key 可解。
    • 通过条件:assert_report.fail=0。

IV. I10-4 单位、量纲与计量一致化

  1. repair_units(ds, policy.units) -> ds', report
    • 作用:单位归一、量纲校核、数值转换。
    • 不变量:对任意表达 y - f(x),check_dim( y - f(x) )=0。
    • 报告键:converted, coerced, rejected.
  2. check_dim_expr(ds, exprs[]) -> report
    用途:批量验证关键表达的量纲守恒。

V. I10-5 时间轴与同步清洗

  1. align_timebase(ds, sync_ref) -> ds', timing_report
    • 作用:建立 tau_mono ↔ ts 映射,估计并记录 offset/skew/J。
    • 不变量:non_decreasing(tau_mono)。
    • 报告键:offset, skew, J, u(offset), dropped_out_of_window.
  2. resample_window(ds, Delta_t, mode) -> ds'
    用途:窗口化对齐与聚合,保持时间语义一致。

VI. I10-6 路径与到达时清洗

  1. enforce_arrival_time_convention(ds, c_ref, tol_Tarr) -> ds', delta_report
    • 计算:
      1. T_arr_1 = ( 1 / c_ref ) * ( ∫_{gamma(ell)} n_eff d ell )
      2. T_arr_2 = ( ∫_{gamma(ell)} ( n_eff / c_ref ) d ell )
      3. delta_form = | T_arr_1 - T_arr_2 |
    • 断言:delta_form ≤ tol_Tarr;落盘两口径与 delta_form。
    • 报告键:count, violations, P99(delta_form)。
  2. check_path_monotonicity(ds, ell_field) -> report
    校验:non_decreasing(ell) 与 L_gamma 可计算性。

VII. I10-7 缺失、掩码与插补治理

  1. handle_missing(ds, strategy.missing) -> ds', manifest_missing
    • 行为:掩码生成 m ∈ {0,1},按规则丢弃/插补,记录 RefCond 与不确定度。
    • 不变量:插补字段显式标注来源与方法。
    • 清单键:mask_coverage, impute_method, u(imputed)。
  2. mark_quality(ds, rules) -> ds'
    用途:生成或更新 q_score ∈ [0,1] 的构成项(覆盖、完整性、时效性)。

VIII. I10-8 异常、漂移与离群治理

  1. detect_outlier(ds, method, fields, Delta_t, params) -> tags, report
    • 方法示例:zscore, MAD, IQR, robust_lof。
    • 报告键:rate, by_field, suppressed.
  2. monitor_drift(ds, ref, method, Delta_t) -> drift, report
    • 用途:分布漂移检测(如 KS, PSI, ADWIN, CUSUM)。
    • 不变量:触发阈值时不改变原数据,仅打标与出警。

IX. I10-9 去重、关联与参照完整性

  1. deduplicate(ds, keys, semantics, tiebreaker) -> ds', dup_report
    • 语义示例:exact, time_window, fuzzy.
    • 不变量:unique(keys) 成立。
    • 报告键:groups, resolved, conflicts.
  2. drop_orphan(ds, foreign_key) -> ds', fk_report
    • 作用:清理外键孤儿记录并计数。
    • 不变量:foreign_key 全量可解。

X. I10-10 合规、契约与发布冻结

  1. assert_contract(ds, tests.*) -> assert_report, pass
    • 覆盖:unique, monotone, range, foreign_key, dim, arrival_forms.
    • 不变量:pass = ( violations = 0 )。
  2. export_manifest(ds, context) -> manifest
    内容:version, SRef, timing, units, arrival_forms, asserts, hash, signature。
  3. freeze_release(ds, tag) -> manifest
    作用:冻结制品、签名与标签化,生成可审计快照。
  4. emit_audit(event) -> audit_head
    用途:更新审计哈希链,事件含 who/when/what/hash_prev.

XI. I10-11 流式清洗与背压节点


XII. I10-12 环境修正与到达时一致化

apply_env_correction(ds, RefCond, model) -> ds', corr_report

XIII. I10-13 密度、概率与归一化清洗


XIV. I10-14 质量评分、SLO 与审计


XV. I10-15 复合用例接口


XVI. 不变量与断言清单(跨接口)

  1. 键与路径
    • unique(pk);foreign_key 全量可解;non_decreasing(ts|ell)。
    • L_gamma = ( ∫_gamma 1 d ell ) 可计算。
  2. 量纲与单位
    unit(t_arr)="s",dim(t_arr)="[T]";check_dim( y - f(x) )=0。
  3. 到达时两口径
    delta_form = | ( 1 / c_ref ) * ( ∫ n_eff d ell ) - ( ∫ ( n_eff / c_ref ) d ell ) |;delta_form ≤ tol_Tarr。
  4. 质量与 SLO
    P99(TS.sli.err_rate) ≤ E_target;P99(TS.sli.lat_ms) ≤ L_target;错误预算燃尽可追溯。
  5. 审计与签名
    任一发布均具 hash_sha256(blob) 与 signature 且链式可验证。

XVII. 与 Core 卷的接口映射


XVIII. 版本与兼容策略


XIX. 典型调用序列(摘要)


小结
本附录对 I10-* 提供了统一的签名、输入输出、报告键与跨接口不变量,并标注与 Core 卷的映射点。读者据此可在批处理、在线与事件流场景复用接口,保证从模式绑定到发布冻结的“可计算、可审计、可回退”。


版权与许可(CC BY 4.0)

版权声明:除另有说明外,《能量丝理论》(含文本、图表、插图、符号与公式)的著作权由作者(“屠广林”先生)享有。
许可方式:本作品采用 Creative Commons 署名 4.0 国际许可协议(CC BY 4.0)进行许可;在注明作者与来源的前提下,允许为商业或非商业目的进行复制、转载、节选、改编与再分发。
署名格式(建议):作者:“屠广林”;作品:《能量丝理论》;来源:energyfilament.org;许可证:CC BY 4.0。

首次发布: 2025-11-11|当前版本:v5.1
协议链接:https://creativecommons.org/licenses/by/4.0/