06-EFT.WP.Core.DataSpec v1.0 | 第10章跨卷绑定与用例

目录／文档-技术白皮书（V5.05）／ 06-EFT.WP.Core.DataSpec v1.0

第10章跨卷绑定与用例

I. 范围与目标

给出 D 与他卷（《Core.Parameters》《Core.Equations》《Core.Metrology》《Core.Errors》）的绑定方法，形成从采集到发布的端到端数据规范。
以 T_arr 为核心用例，统一 gamma(ell) 路径字段、两口径计算与 manifest 绑定，确保量纲与追溯闭环。
提供可直接落地的流程 Mx-6，覆盖模式、契约、计算、隐私与版本发布。

II. 跨卷锚点与绑定关系

锚点清单：c_ref、gamma(ell)、d ell、L_gamma = ( ∫_gamma 1 d ell )、n_eff(x,t)、T_arr。
绑定映射：
- 与《Core.Parameters》：c_ref <- params[c_ref_ref]，n_eff 可能来自 params[n_eff_model_ref]。
- 与《Core.Equations》：T_arr 由 S 中最小方程产生（见本章 S610-*）；路径算子显式指明 gamma(ell) 与测度 d ell。
- 与《Core.Metrology》：字段需声明 unit(field_i)、dim(field_i) 并通过 check_dim(expr)。
- 与《Core.Errors》：计算与校验阶段的异常以 log_event(E.*,"ERROR",context) 记录，并产出 Trace。

III. 数据集规范：DS.TARR.PathIntegral v1

目的：存储按路径积分得到的到达时量 T_arr 及其两口径计算结果与差异度量。
主键与索引：
pk = [pid, seg_id]；idx_k = [[ts], [sid, tid], [form]]。
核心字段（建议）：
- 标识与时空：pid（path id），seg_id（分段 id），ts（UTC），CRS，sid，tid。
- 路径刻画：ell_start，ell_end，L_seg = ( ell_end - ell_start )，ell_nondec ∈ {0,1}。
- 介质属性：n_eff_mean，n_eff_std，n_eff_source ∈ {"meas","model"}。
- 参考常量：c_ref_ref（指向参数表），c_ref_value（解析后数值），unit(c_ref_value)="m/s"。
- 到达时（两口径）：
  1. T_arr_const = ( 1 / c_ref_value ) * ( ∫_gamma n_eff d ell )。
  2. T_arr_integrand = ( ∫_gamma ( n_eff / c_ref_value ) d ell )。
- 误差与质量：delta_form = | T_arr_const - T_arr_integrand |，q_score ∈ [0,1]，mask_seg ∈ {0,1}。
- 追溯：hash_sha256(blob)，signature，Trace = [source -> method -> artifact]。
单位与量纲：
dim(T_arr_const) = dim(T_arr_integrand) = T；dim(n_eff) = 1；dim(c_ref) = L/T；dim( ( ∫_gamma · d ell ) ) = L。

IV. 路径与采样字段规范

路径参数：gamma(ell)，ell 单调非降；每条记录明确 ell_start <= ell_end。
采样窗口：Delta_t 与 fs 须记录；若对 n_eff(x,t) 重采样，声明 method ∈ {"mean","sum","median","first","last"}。
离散近似：
- T_arr_const approx ( 1 / c_ref_value ) * ( Σ_j n_eff_j * Δell_j )。
- T_arr_integrand approx ( Σ_j ( n_eff_j / c_ref_value ) * Δell_j )。
维度校验：check_dim( T_arr_const - T_arr_integrand ) = T 应通过。

V. 最小方程与一致性（S610-*)

S610-1（常量外提口径）：T_arr = ( 1 / c_ref ) * ( ∫_gamma n_eff d ell )。
S610-2（一般口径）：T_arr = ( ∫_gamma ( n_eff / c_ref ) d ell )。
S610-3（差异约束）：delta_form = | T_arr_const - T_arr_integrand | <= tol_Tarr。
S610-4（段落组合）：全路径 T_arr_total = Σ_seg T_arr(seg_id)；L_gamma = Σ_seg L_seg。

VI. 契约与校验模板

主键与路径：
unique(pk)；assert(ell_nondec == 1)；assert(ell_end >= ell_start)。
绑定有效性：
exists(params where id = c_ref_ref)；abs(c_ref_value - params.value) <= tol_cref。
量纲守恒：
check_dim( T_arr_const ) == T；check_dim( T_arr_integrand ) == T。
两口径一致：
delta_form <= tol_Tarr；对不满足者 mask_seg = 0 并降级 q_score。
质量闸门：
q_score >= q_min；hash_sha256 与 signature 完整；Trace 不为空。
合同化实现：
assert_contract(ds, tests=[...]) -> dict，失败即 log_event(E.DS.CONTRACT,"ERROR",context)。

VII. 跨卷绑定流程 Mx-6（端到端）

载入模式：register_schema("DS.TARR.PathIntegral","1.0", ...)，完成 unit/dim 绑定。
导入参数：bind_to_parameters(ds, params=["c_ref_ref","n_eff_model_ref"])。
绑定方程：bind_to_equations(ds, eqn_refs=["S610-1","S610-2"])。
规范到达时：enforce_arrival_time_convention(ds)，生成 T_arr_const 与 T_arr_integrand。
校验契约：validate_dataset(schema, ds, strict=True) 与 assert_contract(ds, tests)。
质量与漂移：quality_metrics(ds)、monitor_drift(D_ref, ds, fields=["T_arr_const","T_arr_integrand"], method="KL")。
隐私与治理：视需要 anonymize 或 mask_fields，继而更新 manifest.privacy。
发布与冻结：export_manifest(ds)，freeze_release(ds,"tarr_v1")。

VIII. 参考实现要点（I60 对接）

enforce_arrival_time_convention(ds:any) -> None
- 读取 c_ref_ref 并解析 c_ref_value；
- 验证 ell 单调与 CRS 一致；
- 计算两口径 T_arr_* 与 delta_form；
- 更新 mask_seg、q_score。
bind_to_equations(ds:any, eqn_refs:list[str]) -> bool
- 校验 S610-* 可解析（符号与单位存在）；
- 写入 manifest.equations = eqn_refs。
export_manifest(ds:any) -> dict
输出 schema_version、fields、units/dims、privacy、governance、cryptography、equations、checks。

IX. 用例 A：采集→校验→计算→发布

输入：n_eff(x,t) 沿 gamma(ell) 的离散样本，c_ref_ref。
步骤：
- 分段聚合 n_eff 得到 n_eff_mean 与 Δell。
- 运行 enforce_arrival_time_convention 产出两口径 T_arr_*。
- 触发 assert_contract 与 quality_metrics。
- delta_form <= tol_Tarr 的段落入发布集；否则 mask_seg=0。
- freeze_release 并签名。
输出：DS.TARR.PathIntegral v1 冻结版本，manifest 含等式引用与质量报告。

X. 用例 B：参数更新触发重算与版本升级

触发：c_ref 在《Core.Parameters》发生变更（bump_version）。
流程：
- diff_datasets(params_old, params_new, keys=["c_ref"])；
- 对受影响的 pid 运行 enforce_arrival_time_convention 重算；
- 若 delta_form 或关键统计发生破坏性变化，则 schema_version = major+1；
- 生成 release_notes 并 freeze_release 新标签。
兼容：提供旧版到新版的适配视图与 manifest.migration。

XI. 用例 C：隐私约束下的发布

策略：
- 泛化路径：gamma(ell) 以 geohash(r>=6) 或分段聚合替代；
- 聚合 T_arr：发布 median/IQR/RMSE 而非逐点；
- 差分隐私：对计数型派生量施加 (epsilon, delta) 预算，记入 epsilon_ledger。
验证：重算 q_score、drift，并确保 delta_form 不超 tol_Tarr。

XII. 故障与恢复（与《Core.Errors》联动）

常见失败：
- 绑定失败（缺少 c_ref_ref）：log_event(E.DS.BIND.MISS,"ERROR",context) → 回退使用默认 c_ref 并标注 remediation。
- 量纲不一致：traceback_summary 并拒绝发布；需要修复 unit/dim 映射。
- 两口径差异超阈：自动降级 mask_seg=0，并进入人工复核队列。
恢复策略：
- retry(policy={"max":3,"backoff":"exp"}) 对临时 I/O；
- fallback(models=["interpolate","neighboring_path"], "weighted") 仅用于诊断，不进入正式发布。

XIII. 验收指标与阈值（建议）

delta_form：p95(delta_form) <= tol_Tarr；tol_Tarr 依据实验设定。
完整性：completeness(pid) >= 0.98；ell_nondec_violation = 0。
复现性：同一 manifest 重算的 T_arr RMSE <= tol_repro。
追溯：Trace 覆盖率 = 1.0；hash_sha256 校验通过率 = 1.0。

XIV. 路径字段与计算的最佳实践

分段长度：Δell 选取满足数值误差 O(Δell^p) 与实测噪声的平衡，记录 p 与外推域。
参考常量：在 manifest 中固定 c_ref 溯源（来源、时间、条件），避免同批次混用。
端点对齐：跨设备拼接 gamma(ell) 时，确保 CRS 一致与端点连续性。

XV. 与其他章节的接口

与第2章：字段词条需补充 pii_level、unit/dim 与默认值策略。
与第4章：两口径与路径契约全部以 assert_contract 呈现，可复用测试模板。
与第5章：推荐 parquet 行组对齐 pid/seg_id，便于向量化积分与索引。
与第8章：数据质量与漂移监测字段（如 drift、q_score）在发布前后持续评估。
与第9章：路径与时空字段按分级发布，必要时应用 anonymize 与 mask_fields。

XVI. 小结

通过 Mx-6 将 DS.TARR.PathIntegral 与参数、方程、计量、隐私、安全、错误处理联为一体。
两口径并行计算与 delta_form 约束是本卷跨卷绑定的核心控制变量；manifest 承载全部证据链与配置。
该范式可平移至任意路径积分类数据集（替换被积函数与参考量），保持同等的可复现与治理水位。

版权与许可：除另有说明外，《能量丝理论》（含文本、图表、插图、符号与公式）的著作权由作者（屠广林）享有。
许可方式（CC BY 4.0）：在注明作者与来源的前提下，允许复制、转载、节选、改编与再分发。
署名格式（建议）：作者：屠广林｜作品：《能量丝理论》｜来源：energyfilament.org｜许可证：CC BY 4.0
验证召集： 作者独立自费、无雇主无资助；下一阶段将优先在最愿意公开讨论、公开复现、公开挑错的环境中推进落地，不限国家。欢迎各国媒体与同行抓住窗口组织验证，并与我们联系。
版本信息： 首次发布：2025-11-11 ｜当前版本：v6.0+5.05