目录文档-技术白皮书06-EFT.WP.Core.DataSpec v1.0

前言


I. 范围与目标

  1. 本卷定义 D(dataset)到 S(schema)到契约(contract)的最小闭环,规范字段语义、单位与量纲、时间与路径标注、追溯与版本,保障跨系统与跨卷一致可复现。
  2. 目标:
    • 将数据要素映射到可验证的计量语义(unit(·), dim(·), check_dim(·)),避免“同名异义”。
    • 用模式与契约约束生产与消费边界,形成“可失败、可诊断、可追溯”的数据管线。
    • 为路径相关量(如 T_arr)提供统一字段与两口径计算的一致封装。
  3. 适用范畴:实验/仿真/运营数据;行式与列式存储;离线与流式场景。

II. 读者与阅读路径

  1. 读者角色:
    • 数据生产方(采集、仿真、服务端):关注字段登记、契约校验、追溯上链。
    • 数据消费方(建模、分析、可视化):关注单位/量纲一致、重采样与窗口、缺失与漂移。
    • 平台与治理方:关注版本兼容、发布冻结、隐私留存与质量闸门。
  2. 推荐阅读路径:
    • 第1–2章:建立命名与模式;
    • 第4章:落地契约与质量闸门;
    • 第7–8章:版本/变更与漂移;
    • 第10章:跨卷用例(T_arr 与 gamma(ell) 数据集)。

III. 设计原则与不可协商项

  1. 语义先行:任何字段若参与方程,必须声明 unit(field_i) 与 dim(field_i) 并通过 check_dim( y - f(x; theta) )。
  2. 环境显式:凡需修正者写作 corr_env(x; RefCond) 并记录 RefCond。
  3. 时间有序:时间序列满足 ts 非降;重采样需声明 method 与 Delta_t。
  4. 路径一致:到达时相关数据须给出 pid、ell 非降、CRS 与 L_gamma = ( ∫_gamma 1 d ell )。
  5. 缺失显式:缺失用 m = 0 标注,不得以哑值替代。
  6. 版本闭包:schema_version 采用语义化,破坏性更改需 major+1 并给出 diff 与适配层。
  7. 计量两口径共存且可核对:
    • 常量外提:T_arr = ( 1 / c_ref ) * ( ∫_gamma n_eff d ell )
    • 一般口径:T_arr = ( ∫_gamma ( n_eff / c_ref ) d ell )
    • 需输出 delta_form:delta_form = | ( 1 / c_ref ) * ( ∫_gamma n_eff d ell ) - ( ∫_gamma ( n_eff / c_ref ) d ell ) |。

IV. 与配套白皮书的关系


V. 编号体系与合规级别

  1. 编号统一:公设 P6x-*,最小方程 S6x-*(数据相关映射),数据流程 M6-*,实现绑定 I60-*。
  2. 合规级别:
    • Level-1(必备):pk 唯一、unit/dim 完整、时间/路径规则满足、manifest 与 Trace 可复验。
    • Level-2(推荐):契约覆盖 ≥ 90% 字段、质量指标与漂移监测上线、发布冻结可追溯。
    • Level-3(优选):双口径 T_arr 同报、delta_form 受控、跨卷自动校验通过。

VI. 核心概念与数据契约三元组

  1. 数据契约三元组:<schema S, contract C, manifest M>。
    • S 规定字段名、类型、unit(·), dim(·), 可空性与索引;
    • C 规定可执行断言(unique/range/regex/cross-field)与失败处置;
    • M 记录生产上下文(RefCond, CRS, 版本、来源、指纹与签名)。
  2. 追溯链:Trace = [source -> method -> artifact] 与 hash_sha256(blob)、signature 共同形成证据链。

VII. 本卷最小合规清单(摘)


VIII. 术语与符号记忆锚点(跨卷共享)


IX. 超出范围

本卷不规定存储引擎选型、计算集群形态与授权体系细节;不涵盖业务域专有语义。相关实现可通过 I60-* 接口落地,但不构成本卷规范内容。

X. 实现绑定预览


版权与许可(CC BY 4.0)

版权声明:除另有说明外,《能量丝理论》(含文本、图表、插图、符号与公式)的著作权由作者(“屠广林”先生)享有。
许可方式:本作品采用 Creative Commons 署名 4.0 国际许可协议(CC BY 4.0)进行许可;在注明作者与来源的前提下,允许为商业或非商业目的进行复制、转载、节选、改编与再分发。
署名格式(建议):作者:“屠广林”;作品:《能量丝理论》;来源:energyfilament.org;许可证:CC BY 4.0。

首次发布: 2025-11-11|当前版本:v5.1
协议链接:https://creativecommons.org/licenses/by/4.0/