目录 / 文档-技术白皮书 / 06-EFT.WP.Core.DataSpec v1.0
I. 范围与目标
- 给出 D 与他卷(《Core.Parameters》《Core.Equations》《Core.Metrology》《Core.Errors》)的绑定方法,形成从采集到发布的端到端数据规范。
- 以 T_arr 为核心用例,统一 gamma(ell) 路径字段、两口径计算与 manifest 绑定,确保量纲与追溯闭环。
- 提供可直接落地的流程 Mx-6,覆盖模式、契约、计算、隐私与版本发布。
II. 跨卷锚点与绑定关系
- 锚点清单:c_ref、gamma(ell)、d ell、L_gamma = ( ∫_gamma 1 d ell )、n_eff(x,t)、T_arr。
- 绑定映射:
- 与《Core.Parameters》:c_ref <- params[c_ref_ref],n_eff 可能来自 params[n_eff_model_ref]。
- 与《Core.Equations》:T_arr 由 S 中最小方程产生(见本章 S610-*);路径算子显式指明 gamma(ell) 与测度 d ell。
- 与《Core.Metrology》:字段需声明 unit(field_i)、dim(field_i) 并通过 check_dim(expr)。
- 与《Core.Errors》:计算与校验阶段的异常以 log_event(E.*,"ERROR",context) 记录,并产出 Trace。
III. 数据集规范:DS.TARR.PathIntegral v1
- 目的:存储按路径积分得到的到达时量 T_arr 及其两口径计算结果与差异度量。
- 主键与索引:
pk = [pid, seg_id];idx_k = [[ts], [sid, tid], [form]]。 - 核心字段(建议):
- 标识与时空:pid(path id),seg_id(分段 id),ts(UTC),CRS,sid,tid。
- 路径刻画:ell_start,ell_end,L_seg = ( ell_end - ell_start ),ell_nondec ∈ {0,1}。
- 介质属性:n_eff_mean,n_eff_std,n_eff_source ∈ {"meas","model"}。
- 参考常量:c_ref_ref(指向参数表),c_ref_value(解析后数值),unit(c_ref_value)="m/s"。
- 到达时(两口径):
- T_arr_const = ( 1 / c_ref_value ) * ( ∫_gamma n_eff d ell )。
- T_arr_integrand = ( ∫_gamma ( n_eff / c_ref_value ) d ell )。
- 误差与质量:delta_form = | T_arr_const - T_arr_integrand |,q_score ∈ [0,1],mask_seg ∈ {0,1}。
- 追溯:hash_sha256(blob),signature,Trace = [source -> method -> artifact]。
- 单位与量纲:
dim(T_arr_const) = dim(T_arr_integrand) = T;dim(n_eff) = 1;dim(c_ref) = L/T;dim( ( ∫_gamma · d ell ) ) = L。
IV. 路径与采样字段规范
- 路径参数:gamma(ell),ell 单调非降;每条记录明确 ell_start <= ell_end。
- 采样窗口:Delta_t 与 fs 须记录;若对 n_eff(x,t) 重采样,声明 method ∈ {"mean","sum","median","first","last"}。
- 离散近似:
- T_arr_const approx ( 1 / c_ref_value ) * ( Σ_j n_eff_j * Δell_j )。
- T_arr_integrand approx ( Σ_j ( n_eff_j / c_ref_value ) * Δell_j )。
- 维度校验:check_dim( T_arr_const - T_arr_integrand ) = T 应通过。
V. 最小方程与一致性(S610-*)
- S610-1(常量外提口径):T_arr = ( 1 / c_ref ) * ( ∫_gamma n_eff d ell )。
- S610-2(一般口径):T_arr = ( ∫_gamma ( n_eff / c_ref ) d ell )。
- S610-3(差异约束):delta_form = | T_arr_const - T_arr_integrand | <= tol_Tarr。
- S610-4(段落组合):全路径 T_arr_total = Σ_seg T_arr(seg_id);L_gamma = Σ_seg L_seg。
VI. 契约与校验模板
- 主键与路径:
unique(pk);assert(ell_nondec == 1);assert(ell_end >= ell_start)。 - 绑定有效性:
exists(params where id = c_ref_ref);abs(c_ref_value - params.value) <= tol_cref。 - 量纲守恒:
check_dim( T_arr_const ) == T;check_dim( T_arr_integrand ) == T。 - 两口径一致:
delta_form <= tol_Tarr;对不满足者 mask_seg = 0 并降级 q_score。 - 质量闸门:
q_score >= q_min;hash_sha256 与 signature 完整;Trace 不为空。 - 合同化实现:
assert_contract(ds, tests=[...]) -> dict,失败即 log_event(E.DS.CONTRACT,"ERROR",context)。
VII. 跨卷绑定流程 Mx-6(端到端)
- 载入模式:register_schema("DS.TARR.PathIntegral","1.0", ...),完成 unit/dim 绑定。
- 导入参数:bind_to_parameters(ds, params=["c_ref_ref","n_eff_model_ref"])。
- 绑定方程:bind_to_equations(ds, eqn_refs=["S610-1","S610-2"])。
- 规范到达时:enforce_arrival_time_convention(ds),生成 T_arr_const 与 T_arr_integrand。
- 校验契约:validate_dataset(schema, ds, strict=True) 与 assert_contract(ds, tests)。
- 质量与漂移:quality_metrics(ds)、monitor_drift(D_ref, ds, fields=["T_arr_const","T_arr_integrand"], method="KL")。
- 隐私与治理:视需要 anonymize 或 mask_fields,继而更新 manifest.privacy。
- 发布与冻结:export_manifest(ds),freeze_release(ds,"tarr_v1")。
VIII. 参考实现要点(I60 对接)
- enforce_arrival_time_convention(ds:any) -> None
- 读取 c_ref_ref 并解析 c_ref_value;
- 验证 ell 单调与 CRS 一致;
- 计算两口径 T_arr_* 与 delta_form;
- 更新 mask_seg、q_score。
- bind_to_equations(ds:any, eqn_refs:list[str]) -> bool
- 校验 S610-* 可解析(符号与单位存在);
- 写入 manifest.equations = eqn_refs。
- export_manifest(ds:any) -> dict
输出 schema_version、fields、units/dims、privacy、governance、cryptography、equations、checks。
IX. 用例 A:采集→校验→计算→发布
- 输入:n_eff(x,t) 沿 gamma(ell) 的离散样本,c_ref_ref。
- 步骤:
- 分段聚合 n_eff 得到 n_eff_mean 与 Δell。
- 运行 enforce_arrival_time_convention 产出两口径 T_arr_*。
- 触发 assert_contract 与 quality_metrics。
- delta_form <= tol_Tarr 的段落入发布集;否则 mask_seg=0。
- freeze_release 并签名。
- 输出:DS.TARR.PathIntegral v1 冻结版本,manifest 含等式引用与质量报告。
X. 用例 B:参数更新触发重算与版本升级
- 触发:c_ref 在《Core.Parameters》发生变更(bump_version)。
- 流程:
- diff_datasets(params_old, params_new, keys=["c_ref"]);
- 对受影响的 pid 运行 enforce_arrival_time_convention 重算;
- 若 delta_form 或关键统计发生破坏性变化,则 schema_version = major+1;
- 生成 release_notes 并 freeze_release 新标签。
- 兼容:提供旧版到新版的适配视图与 manifest.migration。
XI. 用例 C:隐私约束下的发布
- 策略:
- 泛化路径:gamma(ell) 以 geohash(r>=6) 或分段聚合替代;
- 聚合 T_arr:发布 median/IQR/RMSE 而非逐点;
- 差分隐私:对计数型派生量施加 (epsilon, delta) 预算,记入 epsilon_ledger。
- 验证:重算 q_score、drift,并确保 delta_form 不超 tol_Tarr。
XII. 故障与恢复(与《Core.Errors》联动)
- 常见失败:
- 绑定失败(缺少 c_ref_ref):log_event(E.DS.BIND.MISS,"ERROR",context) → 回退使用默认 c_ref 并标注 remediation。
- 量纲不一致:traceback_summary 并拒绝发布;需要修复 unit/dim 映射。
- 两口径差异超阈:自动降级 mask_seg=0,并进入人工复核队列。
- 恢复策略:
- retry(policy={"max":3,"backoff":"exp"}) 对临时 I/O;
- fallback(models=["interpolate","neighboring_path"], "weighted") 仅用于诊断,不进入正式发布。
XIII. 验收指标与阈值(建议)
- delta_form:p95(delta_form) <= tol_Tarr;tol_Tarr 依据实验设定。
- 完整性:completeness(pid) >= 0.98;ell_nondec_violation = 0。
- 复现性:同一 manifest 重算的 T_arr RMSE <= tol_repro。
- 追溯:Trace 覆盖率 = 1.0;hash_sha256 校验通过率 = 1.0。
XIV. 路径字段与计算的最佳实践
- 分段长度:Δell 选取满足数值误差 O(Δell^p) 与实测噪声的平衡,记录 p 与外推域。
- 参考常量:在 manifest 中固定 c_ref 溯源(来源、时间、条件),避免同批次混用。
- 端点对齐:跨设备拼接 gamma(ell) 时,确保 CRS 一致与端点连续性。
XV. 与其他章节的接口
- 与第2章:字段词条需补充 pii_level、unit/dim 与默认值策略。
- 与第4章:两口径与路径契约全部以 assert_contract 呈现,可复用测试模板。
- 与第5章:推荐 parquet 行组对齐 pid/seg_id,便于向量化积分与索引。
- 与第8章:数据质量与漂移监测字段(如 drift、q_score)在发布前后持续评估。
- 与第9章:路径与时空字段按分级发布,必要时应用 anonymize 与 mask_fields。
XVI. 小结
- 通过 Mx-6 将 DS.TARR.PathIntegral 与参数、方程、计量、隐私、安全、错误处理联为一体。
- 两口径并行计算与 delta_form 约束是本卷跨卷绑定的核心控制变量;manifest 承载全部证据链与配置。
- 该范式可平移至任意路径积分类数据集(替换被积函数与参考量),保持同等的可复现与治理水位。
版权与许可(CC BY 4.0)
版权声明:除另有说明外,《能量丝理论》(含文本、图表、插图、符号与公式)的著作权由作者(“屠广林”先生)享有。
许可方式:本作品采用 Creative Commons 署名 4.0 国际许可协议(CC BY 4.0)进行许可;在注明作者与来源的前提下,允许为商业或非商业目的进行复制、转载、节选、改编与再分发。
署名格式(建议):作者:“屠广林”;作品:《能量丝理论》;来源:energyfilament.org;许可证:CC BY 4.0。
首次发布: 2025-11-11|当前版本:v5.1
协议链接:https://creativecommons.org/licenses/by/4.0/