目录文档-技术白皮书06-EFT.WP.Core.DataSpec v1.0

第3章 元数据与追溯链


I. 目标与范围


II. 核心定义与符号


III. manifest 最小必需集


IV. Trace 模型与证据链结构

  1. 节点类型
    • source:原始采集或外部供给的 artifact;
    • method:确定性或随机性处理步骤,标注 version 与 params;
    • artifact:一次处理输出的数据对象,绑定 checksum 与 schema_ref。
  2. 规范化要求
    • method 节点必须记录 code_rev 与 params;
    • 同一 artifact 的 checksum 唯一决定其内容,signature 绑定 keyref;
    • Trace 必须形成有向无环图;TraceID 以 hash_sha256 计算。
  3. 证据链最小闭包
    EvidenceChain 在任一点应包含 parents 指纹、当前 checksum、signature 与 TraceID,且可回放到任意祖先。

V. 指纹、签名与可复现性

  1. 指纹流程(对应 Mx-1)
    • 对数据 ds 按 order(pk) 与字段规范生成 canon(ds);
    • 计算 checksum = hash_sha256(canon(ds));
    • 生成 signature = Sign(checksum, keyref);
    • 将 checksum、signature、keyref 写入 manifest,并追加 parents。
  2. 复现三件套
    ReproTriple def= <checksum, schema_version, code_rev>;三者齐全方可视为强复现。
  3. 校验步骤
    • 校验 signature 与 keyref;
    • 重算 hash_sha256(canon(ds)) 对比 checksum;
    • 验证 schema_version 与本地模式是否兼容;
    • 重放 Trace 中 method,期望重得到 checksum 一致。

VI. 元数据命名空间与字段字典

  1. MD.core.*
    • MD.core.dataset_id : string
    • MD.core.schema_ref : string
    • MD.core.schema_version : string
    • MD.core.pk : array<string>
    • MD.core.idx : array<array<string>>
  2. MD.env.*
    MD.env.os : string、MD.env.cpu : string、MD.env.gpu : string、MD.env.libs : array<string>、MD.env.locale : string
  3. MD.trace.*
    MD.trace.parents : array<string>、MD.trace.TraceID : string、MD.trace.code_rev : string、MD.trace.params : string
  4. MD.sec.*
    MD.sec.checksum_sha256 : string、MD.sec.signature : string、MD.sec.keyref : string
  5. MD.quality.*
    MD.quality.q_score : float、MD.quality.drift : float、MD.quality.completeness : float
  6. MD.arrival.*
    • MD.arrival.pid : string、MD.arrival.CRS : string、MD.arrival.orientation : {"forward"|"reverse"}
    • MD.arrival.L_gamma : float、MD.arrival.formulation : {"factored"|"general"}、MD.arrival.delta_form : float

VII. 与两口径到达时的一致性元数据

  1. 口径声明
    • formulation="factored" 表示 T_arr = ( 1 / c_ref ) * ( ∫_gamma n_eff d ell );
    • formulation="general" 表示 T_arr = ( ∫_gamma ( n_eff / c_ref ) d ell )。
  2. 差异记录
    • delta_form = | ( 1 / c_ref ) * ( ∫_gamma n_eff d ell ) - ( ∫_gamma ( n_eff / c_ref ) d ell ) |;
    • manifest 必须包含 delta_form 与阈值 tol_Tarr,并在契约中断言 delta_form ≤ tol_Tarr。
  3. 路径一致
    pid、ell 单调、CRS 明确、L_gamma = ( ∫_gamma 1 d ell ) 存档。

VIII. 可审计 manifest 模板(文本)


IX. 契约映射与验证接口对照

  1. assert_contract 典型断言
    • unique(dataset_id);
    • non_decreasing(ts) 与 non_decreasing(ell);
    • check_dim( y - f(x; theta) );
    • range(q_score, 0, 1);
    • delta_form ≤ tol_Tarr;
    • exists(MD.sec.checksum_sha256) 与 verify(signature, keyref)。
  2. 与接口对照
    • attach_provenance(ds, trace) → 写入 MD.trace.* 与 TraceID;
    • compute_checksum(ds,"sha256") → 产生 checksum;
    • sign_data(ds,keyref) → 产生 signature;
    • export_manifest(ds) → 导出本章模板的键集合。

X. 漂移与质量元数据的纳入

  1. 质量维度
    completeness = N_observed / N_expected、validity = N_valid / N_observed、consistency ∈ [0,1]、timeliness = now - created_ts。
  2. 漂移记录
    • drift = monitor_drift(ds_ref, ds_new, fields, method="KL")["score"];
    • 在 manifest 的 MD.quality.* 节中记录,并给出 ref_window 与 threshold。

XI. 到达时用例:端到端追溯

用例步骤

XII. 治理、公设与合规要点


XIII. 与跨卷绑定的实施清单


XIV. 发布与冻结

冻结流程

版权与许可(CC BY 4.0)

版权声明:除另有说明外,《能量丝理论》(含文本、图表、插图、符号与公式)的著作权由作者(“屠广林”先生)享有。
许可方式:本作品采用 Creative Commons 署名 4.0 国际许可协议(CC BY 4.0)进行许可;在注明作者与来源的前提下,允许为商业或非商业目的进行复制、转载、节选、改编与再分发。
署名格式(建议):作者:“屠广林”;作品:《能量丝理论》;来源:energyfilament.org;许可证:CC BY 4.0。

首次发布: 2025-11-11|当前版本:v5.1
协议链接:https://creativecommons.org/licenses/by/4.0/