目录文档-技术白皮书06-EFT.WP.Core.DataSpec v1.0

第4章 数据契约与校验


I. 范围与目标


II. 契约模型与语义


III. 公设(P64-*)


IV. 规则类型与标准表达


V. 断言库模板(与 I60 2 对齐)


VI. 契约示例(文本片段)

  1. scope=dataset
  2. tests=
    • - unique: ["pk"]
    • - non_decreasing: "ts"
    • - fixed_interval: { field:"ts", Delta_t:0.01, tol_ts:1e-4 }
    • - latlon_bounds: { lat:"lat", lon:"lon" }
    • - enum: { field:"mode", set:["A","B","C"] }
    • - range: { field:"q_score", min:0.0, max:1.0 }
    • - check_dim: "y - f(x; theta)"
    • - arrival_forms: { delta_form_field:"delta_form", tol_Tarr:1e-6 }
  3. severity_map=
    range->error; unique->critical; non_decreasing->error; check_dim->critical; arrival_forms->error
  4. actions=
    on_error="quarantine"; on_critical="fail_release"; on_warn="annotate_only"

VII. 校验流程(Mx-2 数据契约闸门)

  1. 读取 manifest 与 Contract,对 canon(D) 构建校验上下文(单位归一化、CRS 绑定、pk 与 idx 生效)。
  2. 逐条执行 tests:
    • 记录级断言先行,支持 stream_records(ds, batch) 流式校验;
    • 数据集级断言在索引与统计准备完成后执行;
    • 路径与到达时断言在聚合 pid 与 ell 后执行。
  3. 汇总 metrics = { pass_rate, tested_count, violated, by_rule },写回 manifest 的质量节。
  4. 根据 severity_map 应用 actions:隔离、重试、回滚、降级或仅注释。
  5. 生成 trace_event = log("DS.CONTRACT", level, context) 并附加 TraceID。

VIII. 失败处置与严重性映射


IX. 到达时两口径的契约化

  1. 计算两口径:
    • 常量外提:T_arr = ( 1 / c_ref ) * ( ∫_gamma n_eff d ell )。
    • 一般口径:T_arr = ( ∫_gamma ( n_eff / c_ref ) d ell )。
  2. 断言与记录:
    • delta_form = | T_arr(factored) - T_arr(general) |;
    • 契约项 arrival_forms(delta_form, tol_Tarr) 必填;
    • manifest.arrival.formulation 与 manifest.arrival.delta_form 同步更新。

X. 与接口的对照实现

  1. validate_dataset(SRef, ds, strict=True) -> report:执行模式级检查(类型、单位、量纲、可空性)。
  2. assert_contract(ds, tests) -> dict:执行本章定义的断言并返回逐项结果与 metrics。
  3. 参考调用序列:
    • rep_schema = validate_dataset(SRef, ds);
    • rep_contract = assert_contract(ds, tests);
    • attach_provenance(ds, trace);export_manifest(ds);freeze_release(ds, tag)(若通过)。

XI. 质量度量与覆盖


XII. 采样与规模化建议


XIII. 治理与合规联动


XIV. 变更与兼容性


XV. 最小清单(应纳入 manifest 的契约键)


版权与许可(CC BY 4.0)

版权声明:除另有说明外,《能量丝理论》(含文本、图表、插图、符号与公式)的著作权由作者(“屠广林”先生)享有。
许可方式:本作品采用 Creative Commons 署名 4.0 国际许可协议(CC BY 4.0)进行许可;在注明作者与来源的前提下,允许为商业或非商业目的进行复制、转载、节选、改编与再分发。
署名格式(建议):作者:“屠广林”;作品:《能量丝理论》;来源:energyfilament.org;许可证:CC BY 4.0。

首次发布: 2025-11-11|当前版本:v5.1
协议链接:https://creativecommons.org/licenses/by/4.0/