目录 / 文档-技术白皮书 / 06-EFT.WP.Core.DataSpec v1.0
I. 范围与目标
- 本卷定义 D(dataset)到 S(schema)到契约(contract)的最小闭环,规范字段语义、单位与量纲、时间与路径标注、追溯与版本,保障跨系统与跨卷一致可复现。
- 目标:
- 将数据要素映射到可验证的计量语义(unit(·), dim(·), check_dim(·)),避免“同名异义”。
- 用模式与契约约束生产与消费边界,形成“可失败、可诊断、可追溯”的数据管线。
- 为路径相关量(如 T_arr)提供统一字段与两口径计算的一致封装。
- 适用范畴:实验/仿真/运营数据;行式与列式存储;离线与流式场景。
II. 读者与阅读路径
- 读者角色:
- 数据生产方(采集、仿真、服务端):关注字段登记、契约校验、追溯上链。
- 数据消费方(建模、分析、可视化):关注单位/量纲一致、重采样与窗口、缺失与漂移。
- 平台与治理方:关注版本兼容、发布冻结、隐私留存与质量闸门。
- 推荐阅读路径:
- 第1–2章:建立命名与模式;
- 第4章:落地契约与质量闸门;
- 第7–8章:版本/变更与漂移;
- 第10章:跨卷用例(T_arr 与 gamma(ell) 数据集)。
III. 设计原则与不可协商项
- 语义先行:任何字段若参与方程,必须声明 unit(field_i) 与 dim(field_i) 并通过 check_dim( y - f(x; theta) )。
- 环境显式:凡需修正者写作 corr_env(x; RefCond) 并记录 RefCond。
- 时间有序:时间序列满足 ts 非降;重采样需声明 method 与 Delta_t。
- 路径一致:到达时相关数据须给出 pid、ell 非降、CRS 与 L_gamma = ( ∫_gamma 1 d ell )。
- 缺失显式:缺失用 m = 0 标注,不得以哑值替代。
- 版本闭包:schema_version 采用语义化,破坏性更改需 major+1 并给出 diff 与适配层。
- 计量两口径共存且可核对:
- 常量外提:T_arr = ( 1 / c_ref ) * ( ∫_gamma n_eff d ell )
- 一般口径:T_arr = ( ∫_gamma ( n_eff / c_ref ) d ell )
- 需输出 delta_form:delta_form = | ( 1 / c_ref ) * ( ∫_gamma n_eff d ell ) - ( ∫_gamma ( n_eff / c_ref ) d ell ) |。
IV. 与配套白皮书的关系
- 与《Core.Metrology》:复用 L0、t0、c_ref 规范及 unit(·)、dim(·)、check_dim(·),到达时两口径与 gamma(ell) 路径测度 d ell 的表述保持一致。
- 与《Core.Equations》:字段至方程 Sxx-* 的绑定通过 bind_to_equations(·) 完成,保证量纲守恒与符号对齐。
- 与《Core.Parameters》:参数集作为数据集 manifest 的一部分,支持 bind_to_parameters(·) 形成“数据+参数”快照。
- 与《Core.Errors》:契约失败、漂移与质量告警采用统一错误域与编码,残差与权函数在数据质量评分中可选复用。
- 跨卷引用固定写法:“见 配套白皮书《能量丝》 第x章 S/P/M/I…”。
V. 编号体系与合规级别
- 编号统一:公设 P6x-*,最小方程 S6x-*(数据相关映射),数据流程 M6-*,实现绑定 I60-*。
- 合规级别:
- Level-1(必备):pk 唯一、unit/dim 完整、时间/路径规则满足、manifest 与 Trace 可复验。
- Level-2(推荐):契约覆盖 ≥ 90% 字段、质量指标与漂移监测上线、发布冻结可追溯。
- Level-3(优选):双口径 T_arr 同报、delta_form 受控、跨卷自动校验通过。
VI. 核心概念与数据契约三元组
- 数据契约三元组:<schema S, contract C, manifest M>。
- S 规定字段名、类型、unit(·), dim(·), 可空性与索引;
- C 规定可执行断言(unique/range/regex/cross-field)与失败处置;
- M 记录生产上下文(RefCond, CRS, 版本、来源、指纹与签名)。
- 追溯链:Trace = [source -> method -> artifact] 与 hash_sha256(blob)、signature 共同形成证据链。
VII. 本卷最小合规清单(摘)
- P61-1 主键唯一:∀ r_i ≠ r_j : pk(r_i) ≠ pk(r_j)。
- P61-2 量纲守恒:参与方程字段需通过 check_dim。
- P61-3 时间有序:ts 非降;重采样需显式 Delta_t 与 method。
- P61-4 路径一致:pid、ell 非降、CRS 与 L_gamma 完整。
- P61-5 缺失显式:用 m ∈ {0,1} 标注缺失。
- P61-6 版本闭包:schema_version 语义化并提供 diff。
VIII. 术语与符号记忆锚点(跨卷共享)
- 数据与模式:D、S、R、N = |R|、field_i、type(field_i)、unit(field_i)、dim(field_i)、nullable(field_i)、manifest、schema_version。
- 键与索引:rid、uid、sid、tid、pid、pk、idx_k。
- 时空与窗口:ts、t0、t1、Delta_t、fs、x,y,z、lon,lat,alt、CRS。
- 路径与到达时:gamma(ell)、ell、L_gamma = ( ∫_gamma 1 d ell )、T_arr、n_eff(x,t)、c_ref、d ell。
- 计量与不确定度:unit(·)、dim(·)、check_dim(·)、u(x)、U = k * u_c。
- 质量与缺失:m ∈ {0,1}、q_score ∈ [0,1]、drift。
- 追溯与格式:hash_sha256(blob)、signature、Trace、fmt ∈ {"jsonl","csv","parquet","nc","tfrecord"}。
IX. 超出范围
本卷不规定存储引擎选型、计算集群形态与授权体系细节;不涵盖业务域专有语义。相关实现可通过 I60-* 接口落地,但不构成本卷规范内容。X. 实现绑定预览
- I60 1–10 提供从模式注册、校验与契约、序列化与 I/O、追溯与指纹、分区与索引、质量与漂移、版本与变更、隐私与治理、跨卷互操作、清单导入导出的统一原型。
- 读者可在第10章使用 enforce_arrival_time_convention(ds) 复核 T_arr 两口径一致性,并通过 bind_to_equations(ds, eqn_refs) 与 bind_to_parameters(ds, params) 完成端到端绑定。
版权与许可(CC BY 4.0)
版权声明:除另有说明外,《能量丝理论》(含文本、图表、插图、符号与公式)的著作权由作者(“屠广林”先生)享有。
许可方式:本作品采用 Creative Commons 署名 4.0 国际许可协议(CC BY 4.0)进行许可;在注明作者与来源的前提下,允许为商业或非商业目的进行复制、转载、节选、改编与再分发。
署名格式(建议):作者:“屠广林”;作品:《能量丝理论》;来源:energyfilament.org;许可证:CC BY 4.0。
首次发布: 2025-11-11|当前版本:v5.1
协议链接:https://creativecommons.org/licenses/by/4.0/