目录 / 文档-技术白皮书 / 52-数据集卡 Template v1.0
I. 目的与范围(Purpose & Scope)
- 规范数据集的来源(Source)、**采集流程(Acquisition)与血缘(Lineage)**记录与校验口径,确保来源可信、流程可追溯、依赖可审计。
- 涉及路径量(到达时/相位)时,正文显式路径 gamma(ell) 与测度 d ell,数据侧记录 delta_form ∈ {general, factored};发布要求 p_dim = 1.0 并随附 check_dim_report.json。
II. 输入与依赖(Inputs & Dependencies)
- 协议与管线:采集依据 contract.yaml/schema.json 与《管线卡》阶段规格 stage.yaml。
- 计量与参数:参考《误差预算卡》协方差与覆盖配置、《参数注册卡》新鲜度/版本策略。
- 引用与版本:一律使用“卷名 + 版本 + 锚点(P/S/M/I)”,锚点直指率 ≥ 90%。
III. 来源(Source)
- 来源类型:instrument(仪器/设备)、system(业务/日志)、simulator(仿真)、external(第三方)。
- 最小元信息:source_id、producer、created_at (ISO-8601)、license、site、operator、policy_ref。
- 计量上下文:instrument.make/model/serial/firmware、calib_run_id、clock_state、σ_y(τ)、|δt_abs|/|Δτ_ch|。
IV. 采集(Acquisition)
- 流程描述:采集协议、触发/采样频率 f_s、窗口 T_win、对齐策略 align(ts,T_win)、缓冲/水位策略。
- 数据合约:入站字段与单位/量纲对齐 schema.json;缺失策略使用 null 或缺字段并在 quality.flags 标注原因。
- 路径采集(若适用):gamma_ell[]、d_ell[]、n_eff[] 长度一致且 ≥2;满足步长约束 Δell ≤ ( c_ref / f_s ) / max(n_eff)。
- 隐私与合规(如适用):consent_id、deid_policy、访问域与用途限制。
V. 血缘(Lineage)
- 依赖声明:上游数据/参数/工件通过 see[]/references[]/version 指向具体锚点;图上以节点/边标注版本与 checksum。
- 层级结构:raw → calibrated → derived → annotated → split;禁止环依赖(DAG)。
- 变更追踪:采集/清洗/变换/标注的每次改动在 audit.jsonl 记录(时间、操作者、输入哈希、变更说明、签名)。
VI. 质量门与校验(Gates & Validation)
- G1|Schema 完整:来源/采集/血缘字段齐备。
- G2|引用合规:锚点直指率 ≥ 90%,禁止外链/别名。
- G3|路径规范:gamma/measure/delta_form 齐备;len(path)≥2;Δell 合规。
- G4|量纲闭合:I70-dim_check 通过,p_dim = 1.0。
- G5|新鲜度:clock_state="locked"、|ts_start − calib.timestamp| ≤ τ_calib。
- G7|协方差一致:与《误差预算卡》协方差/核参数一致,Σ 正定。
- G8|唯一性与无环:record_id/checksum 不重复;lineage DAG 无环。
- 触发 S1–S5(量纲失败/新鲜度失效/路径缺失/协方差失配/引用不合规)即拒收并阻断发布,必要时标注 [Restricted]。
VII. 机读制品(Machine-Readable Artifacts)
A. provenance.yaml
version: "1.0.0"
source:
id: "SRC-obs-labA-2025Q3"
type: "instrument"
producer: "labA.metrology"
site: "lab-A"
operator: "tech-ops"
license: "CC-BY-4.0"
instrument:
make: "Acme"
model: "DPO-7k"
serial: "SN123456"
firmware: "v2.1.3"
calibration:
calib_run_id: "CAL2025-09-24-01"
clock_state: "locked"
sigma_y_1s: 1.1e-11
delta_t_abs_ns: 18
delta_tau_ch_ns: 2
acquisition:
fs_hz: 2000
window_s: 1.0
align: "epoch"
buffering: { strategy: "watermark", capacity: 4096 }
path:
gamma: "gamma(ell)"
measure: "d ell"
delta_form: "general"
see:
- "EFT.WP.Core.Metrology v1.0:check_dim"
- "EFT.WP.Core.Equations v1.1:S20-1"
B. lineage_graph.json
{
"nodes": [
{"id":"RAW-telemetry","version":"1.0.0","checksum":"sha256:..."},
{"id":"CAL-telemetry","version":"1.0.1","checksum":"sha256:..."},
{"id":"DER-features","version":"1.0.0","checksum":"sha256:..."}
],
"edges": [
{"from":"RAW-telemetry","to":"CAL-telemetry","type":"calibrate"},
{"from":"CAL-telemetry","to":"DER-features","type":"derive"}
],
"meta":{"generated_at":"2025-09-24T16:00:00Z"}
}
C. audit.jsonl(示例行)
VIII. 反例与修正(Anti-Patterns & Fixes)
- 反例:仅声明 gamma(ell),缺 d ell/delta_form → 修正:补齐并对齐 n_eff 长度。
- 反例:T_arr = ∫ n_eff / c_ref d ell(缺括号)→ 修正:T_arr = ( ∫ ( n_eff / c_ref ) d ell )。
- 反例:clock_state!="locked" 仍入库 → 修正:拒收或回退并在 quality.flags 标注 [Restricted]。
- 反例:lineage 图缺版本/校验和或存在环 → 修正:补全 version/checksum 并断环。
IX. 交叉引用(Cross-References)
- 结构与 Schema:见第4章;切分与版本:见第6章;质量门与完整性:见第7章;不确定度与协方差:见第8章。
- 与《管线卡》:DAG/状态机(Ch.3)、入站契约(Ch.4)、时基/同步(Ch.5)。
- 与《误差预算卡》:协方差与传播(Ch.5/Ch.6)、区间与门阈(Ch.8/Ch.9)。
X. 执行勾选清单(Checklist)
- provenance.yaml 与 lineage_graph.json 完整,包含版本与 checksum。
- 路径量显式 gamma/measure/delta_form;len(path)≥2、Δell 合规;I70-dim_check 通过、p_dim = 1.0。
- clock_state="locked"、σ_y(τ) 与 |δt_abs|/|Δτ_ch| 在阈值内;过期样本已隔离标注。
- see[]/references[]/version 合规且锚点直指率 ≥ 90%;无外链与别名。
- audit.jsonl 事件完整;发布包中包含上述机读制品与签名校验。
版权与许可(CC BY 4.0)
版权声明:除另有说明外,《能量丝理论》(含文本、图表、插图、符号与公式)的著作权由作者(“屠广林”先生)享有。
许可方式:本作品采用 Creative Commons 署名 4.0 国际许可协议(CC BY 4.0)进行许可;在注明作者与来源的前提下,允许为商业或非商业目的进行复制、转载、节选、改编与再分发。
署名格式(建议):作者:“屠广林”;作品:《能量丝理论》;来源:energyfilament.org;许可证:CC BY 4.0。
首次发布: 2025-11-11|当前版本:v5.1
协议链接:https://creativecommons.org/licenses/by/4.0/