目录 / 文档-技术白皮书(V5.05) / 06-EFT.WP.Core.DataSpec v1.0
I. 术语与对象模型
- D(dataset):由记录集合 R 与模式 S 共同定义的数据集,记录数 N def= |R|。
- S(schema):字段字典与约束集合,含 fields, constraints, units, pk, idx。
- field_i:第 i 个字段;其元信息包括 type(field_i)、unit(field_i)、dim(field_i)、nullable(field_i)、aliases。
- manifest:数据清单,包含 schema_version、fmt、RefCond、CRS、Trace、checksum、signature。
- schema_version:语义版本号 major.minor.patch。
- fmt ∈ {"jsonl","csv","parquet","nc","tfrecord"}。
II. 命名公设与编码(P61-, DS.)
- P61-1(唯一命名):任一实体 E(数据集、模式、字段、索引、契约)应具有全局唯一名 name::namespace/version,且在同一 namespace 下 name 不可复用。
- P61-2(主键唯一):∀ r_i ≠ r_j : pk(r_i) ≠ pk(r_j)。复合主键以按位连接表示:pk = (k1, k2, ..., km)。
- P61-3(语义稳定):字段名与含义一一对应;若含义变更,schema_version.major 必增 1。
- P61-4(量纲守恒):参与方程的字段须声明 unit(·) 与 dim(·) 并通过 check_dim( y - f(x; theta) )。
- P61-5(时间与路径):时间序列满足 ts 非降;路径类数据提供 pid 与单调 ell,并声明 CRS。
- P61-6(保留前缀):rid、uid、sid、tid、pid、ts、lon、lat、alt、x、y、z、fs、Delta_t、m、q_score、drift 为保留字段名。
- P61-7(冲突名禁止):T_fil 与 T_trans 不可混用;n 与 n_eff 严格区分。
- DS.* 命名模式:
- 数据集编码:DS.{domain}.{entity}.{purpose}.{semver},如 DS.sensing.path.arrival.v1_0_0。
- 字段词条:FD.{domain}.{entity}.{field},如 FD.geo.path.ell。
- 契约规则:DC.{domain}.{entity}.{rule},如 DC.sensing.ts.non_decreasing.
III. 字段命名规范
- 书写规则:
- 使用 snake_case、ASCII、全小写;单位或量纲不出现在名称中(进入 unit(·)、dim(·))。
- 禁止多义缩写;允许约定缩写:ts(UTC timestamp)、uid、sid、tid、pid、fs、ell。
- 标量优先;向量以后缀区分:x,y,z 或 lon,lat,alt;矩阵以行列下标:J_ij。
- 字段别名:aliases 仅用于兼容读取,落盘统一使用规范名。
- 缺省与空值:空值以 nullable(field_i)=True 与缺失掩码 m ∈ {0,1} 双轨标注;不得使用哑值占位。
IV. 键与索引
- 键定义:
- rid(record id):记录级稳定标识;uid(universal id):跨系统稳定标识;sid(site id);tid(trajectory id);pid(path id = gamma id)。
- 主键 pk 取决于域,例如时间序列常用 pk = (uid, ts);路径点常用 pk = (pid, ell)。
- 索引:idx_k 为二级索引集合,用于高频查询键,如 (ts)、(lon,lat)、(tid,ts)。
- S61-1(键映射最小方程):
- 均匀采样序列:Delta_t = 1 / fs;主键可写 pk = (uid, ts0 + n * Delta_t)。
- 路径点重建:L_gamma = ( ∫_gamma 1 d ell ),用于校核 ell ∈ [0, L_gamma]。
V. 时空要素与窗口
- 时间:ts 为 UTC ISO8601;窗口以 [t0, t1) 表示,宽度 Delta_t = t1 - t0。
- 空间:直角坐标 x,y,z 或地理坐标 lon,lat,alt,并声明 CRS;坐标系变换须在 manifest 中登记方法与误差界。
- 重采样:需提供 method ∈ {"mean","sum","median","first","last"} 与目标 Delta_t;若改变统计性质,记录 error_budget 与 approx independence。
VI. 路径与到达时字段规范
- 路径参数化:gamma(ell),ell 单调不减;d ell 为路径测度。
- 到达时两口径(与《Core.Metrology》一致):
- 常量外提:T_arr = ( 1 / c_ref ) * ( ∫_gamma n_eff d ell )
- 一般口径:T_arr = ( ∫_gamma ( n_eff / c_ref ) d ell )
- 校验差:delta_form = | ( 1 / c_ref ) * ( ∫_gamma n_eff d ell ) - ( ∫_gamma ( n_eff / c_ref ) d ell ) |。
- 路径数据集必备字段:
pid、ell、ts(可选)、x,y,z 或 lon,lat,alt、CRS、n_eff(若可得)、c_ref(引用值或引用源)、T_arr(可派生)。 - M6-1(到达时计算流程):
- 依据 pid 与单调 ell 重建 gamma(ell);
- 选择口径并计算 T_arr;
- 计算并记录 delta_form;
- 通过 check_dim 与契约 DC.sensing.path.monotonic_ell;
- 将 RefCond、CRS、数值误差界并入 manifest。
VII. 计量绑定与单位/量纲
- 单位声明:每个物理量字段必须给出 unit(field_i) 与 dim(field_i);非物理量字段 unit=None, dim=None。
- 单位转换:仅允许仿射形式 v_to = a * v_from + b,其中 b ≠ 0 仅用于零点偏移单位(如 degC ↔ K)。
- 量纲校核:
- check_dim( y - f(x; theta) ) 必过;
- 到达时被积项在 t0 = L0 / c_ref 规范下可写作无量纲形式:( n_eff / c_ref ) * d ell -> bar_n_eff * d bar_ell,其中 bar_n_eff = n_eff,d bar_ell = d ell / L0。
- 参考条件:涉及环境修正的字段写作 corr_env(x; RefCond) 并落盘 RefCond = { p_ref, Temp_ref, humidity_ref }。
VIII. 数据质量与缺失
- 缺失:m ∈ {0,1},其中 m=0 表示缺失;缺失原因、插补方法与不确定度并入 manifest。
- 质量分:q_score ∈ [0,1],可由多维指标聚合;建议报告 completeness、validity、consistency、timeliness。
- 漂移:drift 由 monitor_drift(ds_ref, ds_new, fields, method="KL") 计算;阈值与处置策略写入契约规则 DC.*。
IX. 版本、发布与清单
- 版本策略:
- major+1:破坏性更改(字段删除/重命名、含义改变、类型不兼容)。
- minor+1:向后兼容增强(新增可空字段、新增索引、放宽约束)。
- patch+1:更正文案与非结构化元数据。
- 发布冻结:freeze_release(ds, tag) 后生成不可变 manifest,含 hash_sha256(blob) 与 signature。
- 必备清单字段:name、namespace、schema_version、fmt、created_at、RefCond、CRS、Trace、checksum、signature、producer、license。
X. 命名与字段示例
- 数据集名:
- DS.sensing.ts.accel.v1_2_0(加速度时间序列)
- DS.sensing.path.arrival.v1_0_0(到达时路径数据集)
- DS.sim.geo.raytrace.v2_1_0(几何光线路径仿真)
- 字段示例:
- 时间序列:uid、ts、ax、ay、az、fs、m、q_score
- 路径序列:pid、ell、lon、lat、alt、CRS、n_eff、c_ref、T_arr、delta_form
- 计量附属:u(ax)、U(ax)(可映射为 ax_u, ax_U 的落盘名)
XI. 与实现绑定(I60-*) 的接口对照
- register_schema(…):以本章命名与公设生成 SRef;
- validate_dataset(…):执行 P61-*、DC.* 契约;
- build_index(…):对 pk、(pid, ell)、(uid, ts) 建索引;
- bind_to_equations(ds, eqn_refs):将字段绑定到 Sxx-*;
- enforce_arrival_time_convention(ds):校核两口径并产出 delta_form;
- export_manifest(ds):输出合规 manifest 以供追溯链使用。
XII. 最小合规检查清单(M6-0)
- 名称符合 DS.{domain}.{entity}.{purpose}.{semver},且 schema_version 语义化。
- 声明 pk 与至少一个二级索引 idx_k,并通过唯一性校验。
- 所有物理量字段均具备 unit(·) 与 dim(·),并通过 check_dim。
- 时间序列满足 ts 非降;路径序列具备 pid、单调 ell 与 CRS。
- 到达时数据同时支持两口径,报告 delta_form。
- manifest 含 RefCond、CRS、Trace、checksum、signature,质量与缺失信息完整。
版权与许可:除另有说明外,《能量丝理论》(含文本、图表、插图、符号与公式)的著作权由作者(屠广林)享有。
许可方式(CC BY 4.0):在注明作者与来源的前提下,允许复制、转载、节选、改编与再分发。
署名格式(建议):作者:屠广林|作品:《能量丝理论》|来源:energyfilament.org|许可证:CC BY 4.0
验证召集: 作者独立自费、无雇主无资助;下一阶段将优先在最愿意公开讨论、公开复现、公开挑错的环境中推进落地,不限国家。欢迎各国媒体与同行抓住窗口组织验证,并与我们联系。
版本信息: 首次发布:2025-11-11 | 当前版本:v6.0+5.05