目录文档-技术白皮书(V5.05)06-EFT.WP.Core.DataSpec v1.0

第1章 数据要素与命名


I. 术语与对象模型


II. 命名公设与编码(P61-, DS.

  1. P61-1(唯一命名):任一实体 E(数据集、模式、字段、索引、契约)应具有全局唯一名 name::namespace/version,且在同一 namespace 下 name 不可复用。
  2. P61-2(主键唯一):∀ r_i ≠ r_j : pk(r_i) ≠ pk(r_j)。复合主键以按位连接表示:pk = (k1, k2, ..., km)。
  3. P61-3(语义稳定):字段名与含义一一对应;若含义变更,schema_version.major 必增 1。
  4. P61-4(量纲守恒):参与方程的字段须声明 unit(·) 与 dim(·) 并通过 check_dim( y - f(x; theta) )。
  5. P61-5(时间与路径):时间序列满足 ts 非降;路径类数据提供 pid 与单调 ell,并声明 CRS。
  6. P61-6(保留前缀):rid、uid、sid、tid、pid、ts、lon、lat、alt、x、y、z、fs、Delta_t、m、q_score、drift 为保留字段名。
  7. P61-7(冲突名禁止):T_fil 与 T_trans 不可混用;n 与 n_eff 严格区分。
  8. DS.* 命名模式:
    • 数据集编码:DS.{domain}.{entity}.{purpose}.{semver},如 DS.sensing.path.arrival.v1_0_0。
    • 字段词条:FD.{domain}.{entity}.{field},如 FD.geo.path.ell。
    • 契约规则:DC.{domain}.{entity}.{rule},如 DC.sensing.ts.non_decreasing.

III. 字段命名规范

  1. 书写规则:
    • 使用 snake_case、ASCII、全小写;单位或量纲不出现在名称中(进入 unit(·)、dim(·))。
    • 禁止多义缩写;允许约定缩写:ts(UTC timestamp)、uid、sid、tid、pid、fs、ell。
    • 标量优先;向量以后缀区分:x,y,z 或 lon,lat,alt;矩阵以行列下标:J_ij。
  2. 字段别名:aliases 仅用于兼容读取,落盘统一使用规范名。
  3. 缺省与空值:空值以 nullable(field_i)=True 与缺失掩码 m ∈ {0,1} 双轨标注;不得使用哑值占位。

IV. 键与索引

  1. 键定义:
    • rid(record id):记录级稳定标识;uid(universal id):跨系统稳定标识;sid(site id);tid(trajectory id);pid(path id = gamma id)。
    • 主键 pk 取决于域,例如时间序列常用 pk = (uid, ts);路径点常用 pk = (pid, ell)。
  2. 索引:idx_k 为二级索引集合,用于高频查询键,如 (ts)、(lon,lat)、(tid,ts)。
  3. S61-1(键映射最小方程):
    • 均匀采样序列:Delta_t = 1 / fs;主键可写 pk = (uid, ts0 + n * Delta_t)。
    • 路径点重建:L_gamma = ( ∫_gamma 1 d ell ),用于校核 ell ∈ [0, L_gamma]。

V. 时空要素与窗口


VI. 路径与到达时字段规范

  1. 路径参数化:gamma(ell),ell 单调不减;d ell 为路径测度。
  2. 到达时两口径(与《Core.Metrology》一致):
    • 常量外提:T_arr = ( 1 / c_ref ) * ( ∫_gamma n_eff d ell )
    • 一般口径:T_arr = ( ∫_gamma ( n_eff / c_ref ) d ell )
  3. 校验差:delta_form = | ( 1 / c_ref ) * ( ∫_gamma n_eff d ell ) - ( ∫_gamma ( n_eff / c_ref ) d ell ) |。
  4. 路径数据集必备字段:
    pid、ell、ts(可选)、x,y,z 或 lon,lat,alt、CRS、n_eff(若可得)、c_ref(引用值或引用源)、T_arr(可派生)。
  5. M6-1(到达时计算流程):
    • 依据 pid 与单调 ell 重建 gamma(ell);
    • 选择口径并计算 T_arr;
    • 计算并记录 delta_form;
    • 通过 check_dim 与契约 DC.sensing.path.monotonic_ell;
    • 将 RefCond、CRS、数值误差界并入 manifest。

VII. 计量绑定与单位/量纲

  1. 单位声明:每个物理量字段必须给出 unit(field_i) 与 dim(field_i);非物理量字段 unit=None, dim=None。
  2. 单位转换:仅允许仿射形式 v_to = a * v_from + b,其中 b ≠ 0 仅用于零点偏移单位(如 degC ↔ K)。
  3. 量纲校核:
    • check_dim( y - f(x; theta) ) 必过;
    • 到达时被积项在 t0 = L0 / c_ref 规范下可写作无量纲形式:( n_eff / c_ref ) * d ell -> bar_n_eff * d bar_ell,其中 bar_n_eff = n_eff,d bar_ell = d ell / L0。
  4. 参考条件:涉及环境修正的字段写作 corr_env(x; RefCond) 并落盘 RefCond = { p_ref, Temp_ref, humidity_ref }。

VIII. 数据质量与缺失


IX. 版本、发布与清单

  1. 版本策略:
    • major+1:破坏性更改(字段删除/重命名、含义改变、类型不兼容)。
    • minor+1:向后兼容增强(新增可空字段、新增索引、放宽约束)。
    • patch+1:更正文案与非结构化元数据。
  2. 发布冻结:freeze_release(ds, tag) 后生成不可变 manifest,含 hash_sha256(blob) 与 signature。
  3. 必备清单字段:name、namespace、schema_version、fmt、created_at、RefCond、CRS、Trace、checksum、signature、producer、license。

X. 命名与字段示例

  1. 数据集名:
    • DS.sensing.ts.accel.v1_2_0(加速度时间序列)
    • DS.sensing.path.arrival.v1_0_0(到达时路径数据集)
    • DS.sim.geo.raytrace.v2_1_0(几何光线路径仿真)
  2. 字段示例:
    • 时间序列:uid、ts、ax、ay、az、fs、m、q_score
    • 路径序列:pid、ell、lon、lat、alt、CRS、n_eff、c_ref、T_arr、delta_form
    • 计量附属:u(ax)、U(ax)(可映射为 ax_u, ax_U 的落盘名)

XI. 与实现绑定(I60-*) 的接口对照


XII. 最小合规检查清单(M6-0)


版权与许可:除另有说明外,《能量丝理论》(含文本、图表、插图、符号与公式)的著作权由作者(屠广林)享有。
许可方式(CC BY 4.0):在注明作者与来源的前提下,允许复制、转载、节选、改编与再分发。
署名格式(建议):作者:屠广林|作品:《能量丝理论》|来源:energyfilament.org|许可证:CC BY 4.0
验证召集: 作者独立自费、无雇主无资助;下一阶段将优先在最愿意公开讨论、公开复现、公开挑错的环境中推进落地,不限国家。欢迎各国媒体与同行抓住窗口组织验证,并与我们联系。
版本信息: 首次发布:2025-11-11 | 当前版本:v6.0+5.05