目录 / 文档-技术白皮书 / 54-复现实验清单 Template v1.0
第5章 数据快照与血缘(Provenance/Splits/Checksums)
I. 目标与范围(Purpose & Scope)
- 冻结并核验训练/验证/测试所用数据的来源(Provenance)、结构与切分(Schema/Splits)、校验和(Checksums)与血缘(Lineage),输出机读清单以支持一键复现与等价比对。
- 凡涉及路径量(到达时/相位),正文显式 gamma(ell) 与测度 d ell,数据侧记录 delta_form ∈ {general, factored};所有表达括号化,发布要求 p_dim = 1.0 并随附 check_dim_report.json。
II. 输入与依赖(Inputs & Dependencies)
- 对齐:《数据集卡》Ch.3/Ch.4/Ch.6/Ch.7/Ch.11、《模型卡》Ch.5/Ch.6/Ch.8、《误差预算卡》Ch.8/Ch.9、《管线卡》Ch.4/Ch.12、《参数注册卡》Ch.6。
- 引用统一“卷名 + 版本 + 锚点(P/S/M/I)”,锚点直指率 ≥ 90%。
III. 数据来源与许可(Sources & Licenses)
- 来源类型:instrument/system/simulator/external;每一来源均记录 source_id/producer/site/operator/license/policy_ref。
- 许可与限制:在 data_refs.yaml 明示再分发条款与用途/地域/人群限制;与模型/接口说明一致。
- 时间锁定与新鲜度:clock_state="locked",记录与核验 |ts_start − calib.timestamp| ≤ τ_calib。
IV. Schema/单位/量纲与切分(Schema/Units/Dimensions & Splits)
- 字段对齐:schema.json/contract.yaml 与本清单读取字段一致(单位/量纲/可空/取值域)。
- 切分防泄漏:按 split.yaml 固定 train/val/test/holdout/slice_k,严格时间单调与实体隔离;固定 seed。
- 路径一致性:len(gamma_ell)=len(d_ell)=len(n_eff)≥2,步长约束 Δell ≤ ( c_ref / f_s ) / max(n_eff);相位在参考窗对齐后再计算指标。
- 到达时/相位规范(两式等价):
T_arr = ( 1 / c_ref ) * ( ∫ n_eff d ell );T_arr = ( ∫ ( n_eff / c_ref ) d ell );
Phi = ( 2π / λ_ref ) * ( ∫ n_eff d ell )。
V. 校验和与签名(Checksums & Signatures)
- 对所有文件产出 sha256 并汇总于 checksums.txt;发布包含 SIGNATURE.asc;清单 report_manifest.yaml 记录引用与校验路径。
- 对大体量分片或外部对象存储,按文件粒度与分片粒度双写校验并记录计数与总字节数。
VI. 血缘与审计(Lineage & Audit)
- Lineage DAG:raw → calibrated → derived → annotated → split → subset,节点/边标注 version/checksum/transform,禁止环。
- 事件审计:采集/清洗/切分/抽样/增强事件写入 audit.jsonl(时间、操作者、输入哈希、变更说明、签名)。
VII. 预摄入与发布前校验(Pre-Ingest & Pre-Release Validation)
- Schema 校核(G1):字段/类型/单位/量纲一致;
- 引用合规(G2):锚点直指率 ≥ 90%;
- 路径规范(G3):gamma/measure/delta_form 齐备、长度一致、步长合规;
- 量纲闭合(G4):check_dim_report.json 通过,p_dim = 1.0;
- 新鲜度(G5):clock_state="locked"、τ_calib 合规;
- 覆盖一致(G6):coverage.mode ∈ {k, alpha, quantile} 与跨卷一致;
- 协方差一致(G7):Σ PD 并与误差卷配置一致;
- 唯一性与无环(G8):record_id/checksum 唯一、Lineage DAG 无环。
VIII. 机读制品(Machine-Readable Artifacts)
A. data_refs.yaml
version: "1.0.0"
datasets:
- id: "ds-core"
source: { type: "instrument", source_id: "SRC-obs-labA-2025Q3", license: "CC-BY-4.0" }
manifest: "DS_EXPORT/manifests/report_manifest.yaml"
schema: "DS_EXPORT/schemas/dataset/schema.json"
splits: "DS_EXPORT/splits/split_manifest.json"
see:
- "Dataset Card v1.0:Ch.3"
- "Dataset Card v1.0:Ch.4"
B. split_manifest.json(节选)
{
"dataset_version": "1.2.0",
"splits": {
"train": { "count": 120345, "checksum": "sha256:..." },
"val": { "count": 25780, "checksum": "sha256:..." },
"test": { "count": 25812, "checksum": "sha256:..." }
},
"slices": { "low_snr": { "count": 8142, "rule": "snr<5" } },
"freshness": {
"valid_from": "2025-09-01T00:00:00Z",
"valid_to": "2026-03-01T00:00:00Z",
"policy": { "tau_calib_s_max": 86400, "clock_state": "locked" }
}
}
C. lineage_graph.json(节选)
D. checksums.txt(片段)
sha256 data_refs.yaml <64-hex>
sha256 split_manifest.json <64-hex>
sha256 lineage_graph.json <64-hex>
sha256 reports/check_dim_report.json <64-hex>
IX. 反例与修正(Anti-Patterns & Fixes)
- 反例:T_arr = ∫ n_eff / c_ref d ell(缺括号) → 修正:T_arr = ( ∫ ( n_eff / c_ref ) d ell )。
- 反例:仅给 gamma(ell),缺 d ell/delta_form 或数组不同长 → 修正:补齐并保证三者同长。
- 反例:跨 split 复用同一实体导致泄漏 → 修正:group_by(entity) 重切并更新 split_manifest.json。
- 反例:clock_state!="locked" 或 τ_calib 超限仍纳入 → 修正:隔离为 [Restricted] 或再标定。
- 反例:清单无 checksums/signature → 修正:生成并在 report_manifest.yaml 登记。
X. 交叉引用(Cross-References)
- 《数据集卡》:Ch.3(Provenance)、Ch.4(Schema)、Ch.6(Splits/Versioning)、Ch.7(QC Gates)、Ch.11(Bench/Score)。
- 《模型卡》:Ch.5(训练数据与血缘)、Ch.6(训练协议)。
- 《误差预算卡》:Ch.8(UQ & Cov)、Ch.9(阈值映射)。
- 《管线卡》:Ch.12(产出与发布)。
XI. 勾选清单(Checklist)
- data_refs.yaml / split_manifest.json / lineage_graph.json / checksums.txt 完整并入库;report_manifest.yaml 已登记。
- 路径块显式 gamma/measure/delta_form;len(path) ≥ 2、Δell 合规;相位在参考窗对齐。
- I70-dim_check 通过,p_dim = 1.0;clock_state="locked"、τ_calib 合规。
- 覆盖模式在数据/模型/误差/管线四卷统一(k/alpha/quantile);Σ PD。
- /validate 通过 G1–G8;锚点直指率 ≥ 90%;不合规项按 [Restricted] 标注与处置。
版权与许可(CC BY 4.0)
版权声明:除另有说明外,《能量丝理论》(含文本、图表、插图、符号与公式)的著作权由作者(“屠广林”先生)享有。
许可方式:本作品采用 Creative Commons 署名 4.0 国际许可协议(CC BY 4.0)进行许可;在注明作者与来源的前提下,允许为商业或非商业目的进行复制、转载、节选、改编与再分发。
署名格式(建议):作者:“屠广林”;作品:《能量丝理论》;来源:energyfilament.org;许可证:CC BY 4.0。
首次发布: 2025-11-11|当前版本:v5.1
协议链接:https://creativecommons.org/licenses/by/4.0/