目录 / 文档-技术白皮书 / 52-数据集卡 Template v1.0
I. 目的与范围(Purpose & Scope)
- 定义数据集级质量门(Gates G1–G8)与完整性校验的判定口径、停止/回退(S1–S5)、/validate 报告规范与发布合规,确保结构、量纲、路径、版本与新鲜度的一致性与可审计。
- 凡涉及路径量(到达时/相位),正文显式路径 gamma(ell) 与测度 d ell,数据侧记录 delta_form ∈ {general, factored};发布要求 p_dim = 1.0 并随附 check_dim_report.json。
II. 前置条件与输入(Prerequisites & Inputs)
- 契约与结构:schema.json/contract.yaml 与第4章一致,字段/单位/量纲与 TARR 对齐。
- 切分与版本:split.yaml/split_manifest.json 完整(见第6章),SemVer 标注清晰。
- 来源与血缘:provenance.yaml/lineage_graph.json 完整(见第3章),无环。
- 计量与覆盖:与《误差预算卡》一致(cov_group/Σ、coverage ∈ {k, alpha, quantile})。
- 引用与版本:一律“卷名 + 版本 + 锚点(P/S/M/I)”,锚点直指率 ≥ 90%。
III. 质量门定义(Gates G1–G8)
- G1|Schema 完整:必填字段存在;类型、索引/窗口、单位/量纲与契约一致;主键/时间/路径块齐备。
- G2|引用合规:see[]/references[] 直指锚点,直指率 ≥ 90%,禁止外链/别名。
- G3|路径规范:gamma/measure/delta_form 齐备;len(gamma_ell)=len(d_ell)=len(n_eff)≥2;步长 Δell ≤ ( c_ref / f_s ) / max(n_eff)。
- G4|量纲闭合:I70-dim_check 通过,p_dim = 1.0;到达时/相位采用括号化统一口径:
T_arr = ( 1 / c_ref ) * ( ∫ n_eff d ell ) 或 T_arr = ( ∫ ( n_eff / c_ref ) d ell );
Phi = ( 2π / λ_ref ) * ( ∫ n_eff d ell )。 - G5|新鲜度:clock_state="locked";|ts_start − calib.timestamp| ≤ τ_calib;过期样本隔离。
- G6|覆盖口径:统计区间在数据与发布侧一致(k/alpha/quantile)。
- G7|协方差一致:cov_group/Σ 与误差卷一致,Σ 正定(必要时加抖动);分层/切片假设一致。
- G8|唯一性:record_id/checksum 不重复;lineage DAG 无环;切分间不混淆(除非 slice_k 明确共享)。
IV. 停止与回退(Stops & Fallbacks,S1–S5)
- S1:量纲失败或 p_dim < 1 → 拒收/回滚,必要时标注 [Restricted]。
- S2:新鲜度失效或 clock_state != locked → 隔离或重新校准。
- S3:路径块缺失或步长不合规 → 拒收并补齐/重采样。
- S4:协方差非 PD/与配置失配 → 修正核参数或切稳健代理。
- S5:引用不合规/锚点不足 → 阻断发布并修正引用。
V. /validate 报告规范(Validation API & Report)
- 输入:gates[](默认 ["G1".. "G8"]),可选 stops[]。
- 输出:全局与分 split 的门结果、stops_triggered、关键指标快照、链接 links{check_dim_report,audit}。
validate_report.json(示例)
{
"dataset_id": "ds-core",
"timestamp": "2025-09-24T16:00:00Z",
"global": { "G1": true, "G2": 0.94, "G3": true, "G4": true, "G5": true, "G6": true, "G7": true, "G8": true },
"splits": {
"train": { "G": { "G1": true, "G3": true, "G4": true, "G6": true, "G8": true }, "count": 120345 },
"val": { "G": { "G1": true, "G3": true, "G4": true, "G6": true, "G8": true }, "count": 25780 },
"test": { "G": { "G1": true, "G3": true, "G4": true, "G6": true, "G8": true }, "count": 25812 }
},
"stops_triggered": [],
"links": { "check_dim_report": "reports/check_dim_report.json", "audit": "reports/audit.jsonl" }
}
VI. 机读规则(Machine-Readable Rules)
A. gate_rules.yaml
version: "1.0.0"
gates:
G1: { schema_required: true }
G2: { anchor_coverage_min: 0.90, forbid_external_links: true }
G3: { path_required: true, min_samples: 2, delta_form: ["general","factored"], delta_ell_guard: "c_ref/fs/max(n_eff)" }
G4: { require_dim_check: true, p_dim: 1.0 }
G5: { tau_calib_s_max: 86400, clock_state: "locked" }
G6: { coverage_allowed: ["k","alpha","quantile"] }
G7: { cov_pd: true, kernel_allowed: ["exp","matern","ar1","const"] }
G8: { unique_record_id: true, unique_checksum: true, lineage_acyclic: true }
stops:
S1: "dim_check_fail or p_dim<1"
S2: "freshness_expired or clock_state!=locked"
S3: "path_block_missing or delta_ell_violate"
S4: "covariance_not_pd or cov_model_mismatch"
S5: "anchor_coverage_below_min or external_link_found"
labels: { restricted: "[Restricted]" }
B. compliance_table.csv(发布表头)
split,G1,G2(G-coverage),G3,G4,G5,G6,G7,G8,stops
train,true,0.94,true,true,true,true,true,true,""
val,true,0.95,true,true,true,true,true,true,""
test,true,0.93,true,true,true,true,true,true,""
VII. 监控与告警(Monitoring & Alerts)
- 在线指标:Latency_P50/P95、Throughput、p_dim、σ_y(τ)、δt_abs、Δτ_ch、loss_rate、Q_res。
- 触发条件:门越界(G1–G8)、S1–S5、锁相丢失、路径不同步、协方差非 PD;支持静默窗口与告警合并。
- 处置动作:隔离/回滚 split、补齐路径块、重校准、切稳健代理、标注 [Restricted]。
VIII. 反例与修正(Anti-Patterns & Fixes)
- 反例:T_arr = ∫ n_eff / c_ref d ell(缺括号) → 修正:T_arr = ( ∫ ( n_eff / c_ref ) d ell )。
- 反例:路径仅给 gamma(ell) 缺 d ell/delta_form → 修正:补齐并与 n_eff 等长。
- 反例:过期样本混入 split → 修正:依据 freshness.policy 过滤或隔离并标注。
- 反例:发布侧与数据侧覆盖口径不一致 → 修正:统一 coverage.mode 与参数。
- 反例:lineage 存在环/缺版本与校验和 → 修正:断环并补全 version/checksum。
IX. 交叉引用(Cross-References)
- Splits/Versioning/Freshness:见第6章;Structure & Schema:见第4章;Provenance:见第3章;UQ:见第8章。
- Pipeline Card:质量门/监控(Ch.9)、入站契约(Ch.4)、产出与发布(Ch.12)。
- Error Budget Card:区间与阈值映射(Ch.8/Ch.9)。
X. 执行勾选清单(Checklist)
- gate_rules.yaml 与 /validate 一致;compliance_table.csv 已生成。
- 路径量显式 gamma/measure/delta_form;len(path) ≥ 2、Δell 合规;I70-dim_check 通过、p_dim = 1.0。
- clock_state="locked"、τ_calib 合规;过期样本隔离或 [Restricted]。
- 覆盖口径统一(k/alpha/quantile);cov_group/Σ 与误差卷一致且 PD。
- see[]/references[]/version 合规且锚点直指率 ≥ 90%;lineage 无环、record_id/checksum 唯一。
- 发布包包含 check_dim_report.json、validate_report.json、compliance_table.csv 与签名。
版权与许可(CC BY 4.0)
版权声明:除另有说明外,《能量丝理论》(含文本、图表、插图、符号与公式)的著作权由作者(“屠广林”先生)享有。
许可方式:本作品采用 Creative Commons 署名 4.0 国际许可协议(CC BY 4.0)进行许可;在注明作者与来源的前提下,允许为商业或非商业目的进行复制、转载、节选、改编与再分发。
署名格式(建议):作者:“屠广林”;作品:《能量丝理论》;来源:energyfilament.org;许可证:CC BY 4.0。
首次发布: 2025-11-11|当前版本:v5.1
协议链接:https://creativecommons.org/licenses/by/4.0/