目录文档-技术白皮书(V5.05)06-EFT.WP.Core.DataSpec v1.0

第4章 数据契约与校验


I. 范围与目标


II. 契约模型与语义


III. 公设(P64-*)


IV. 规则类型与标准表达


V. 断言库模板(与 I60 2 对齐)


VI. 契约示例(文本片段)

  1. scope=dataset
  2. tests=
    • - unique: ["pk"]
    • - non_decreasing: "ts"
    • - fixed_interval: { field:"ts", Delta_t:0.01, tol_ts:1e-4 }
    • - latlon_bounds: { lat:"lat", lon:"lon" }
    • - enum: { field:"mode", set:["A","B","C"] }
    • - range: { field:"q_score", min:0.0, max:1.0 }
    • - check_dim: "y - f(x; theta)"
    • - arrival_forms: { delta_form_field:"delta_form", tol_Tarr:1e-6 }
  3. severity_map=
    range->error; unique->critical; non_decreasing->error; check_dim->critical; arrival_forms->error
  4. actions=
    on_error="quarantine"; on_critical="fail_release"; on_warn="annotate_only"

VII. 校验流程(Mx-2 数据契约闸门)

  1. 读取 manifest 与 Contract,对 canon(D) 构建校验上下文(单位归一化、CRS 绑定、pk 与 idx 生效)。
  2. 逐条执行 tests:
    • 记录级断言先行,支持 stream_records(ds, batch) 流式校验;
    • 数据集级断言在索引与统计准备完成后执行;
    • 路径与到达时断言在聚合 pid 与 ell 后执行。
  3. 汇总 metrics = { pass_rate, tested_count, violated, by_rule },写回 manifest 的质量节。
  4. 根据 severity_map 应用 actions:隔离、重试、回滚、降级或仅注释。
  5. 生成 trace_event = log("DS.CONTRACT", level, context) 并附加 TraceID。

VIII. 失败处置与严重性映射


IX. 到达时两口径的契约化

  1. 计算两口径:
    • 常量外提:T_arr = ( 1 / c_ref ) * ( ∫_gamma n_eff d ell )。
    • 一般口径:T_arr = ( ∫_gamma ( n_eff / c_ref ) d ell )。
  2. 断言与记录:
    • delta_form = | T_arr(factored) - T_arr(general) |;
    • 契约项 arrival_forms(delta_form, tol_Tarr) 必填;
    • manifest.arrival.formulation 与 manifest.arrival.delta_form 同步更新。

X. 与接口的对照实现

  1. validate_dataset(SRef, ds, strict=True) -> report:执行模式级检查(类型、单位、量纲、可空性)。
  2. assert_contract(ds, tests) -> dict:执行本章定义的断言并返回逐项结果与 metrics。
  3. 参考调用序列:
    • rep_schema = validate_dataset(SRef, ds);
    • rep_contract = assert_contract(ds, tests);
    • attach_provenance(ds, trace);export_manifest(ds);freeze_release(ds, tag)(若通过)。

XI. 质量度量与覆盖


XII. 采样与规模化建议


XIII. 治理与合规联动


XIV. 变更与兼容性


XV. 最小清单(应纳入 manifest 的契约键)


版权与许可:除另有说明外,《能量丝理论》(含文本、图表、插图、符号与公式)的著作权由作者(屠广林)享有。
许可方式(CC BY 4.0):在注明作者与来源的前提下,允许复制、转载、节选、改编与再分发。
署名格式(建议):作者:屠广林|作品:《能量丝理论》|来源:energyfilament.org|许可证:CC BY 4.0
验证召集: 作者独立自费、无雇主无资助;下一阶段将优先在最愿意公开讨论、公开复现、公开挑错的环境中推进落地,不限国家。欢迎各国媒体与同行抓住窗口组织验证,并与我们联系。
版本信息: 首次发布:2025-11-11 | 当前版本:v6.0+5.05