目录 / 文档-技术白皮书 / 52-数据集卡 Template v1.0
I. 目的与范围(Purpose & Scope)
- 规范**数据级不确定度(Uncertainty)与协方差(Covariance)**的建模、登记、合成与发布口径,适配不同 Splits/Versioning/Freshness 场景,确保统计区间、协方差块与对外发布口径一致。
- 涉及路径量(到达时/相位)时,正文显式路径 gamma(ell) 与测度 d ell,数据侧记录 delta_form ∈ {general, factored};发布要求 p_dim = 1.0 并随附 check_dim_report.json。
II. 输入与依赖(Prerequisites & Inputs)
- 结构与契约:schema.json/contract.yaml(见第4章)已对齐 TARR,字段单位/量纲明确。
- Splits/Versioning/Freshness:split.yaml/split_manifest.json(见第6章)与 freshness.policy 就绪;过期样本隔离。
- 计量与参数:与《误差预算卡》对齐 cov_group/Σ 与 coverage ∈ {k, alpha, quantile};与《参数注册卡》一致的版本/新鲜度策略。
- 引用与版本:一律“卷名 + 版本 + 锚点(P/S/M/I)”,锚点直指率 ≥ 90%。
III. 数据级不确定度建模(UQ — Dataset Level)
- Δ法(线性一阶):对字段向量 y=f(x),u^2(y) ≈ J · Σ · Jᵀ,其中 J=∂f/∂x|_{x̂};适用于近线性与残差近高斯。
- MC/自举:B ≥ 10^4;重尾/异方差使用稳健分位(如 P2.5–P97.5)或 Huber 代理;报告收敛诊断。
- 合成规则:
- 不相关项:u_c = √(∑ u_i^2);
- 相关项:u_c^2 = ∑ u_i^2 + 2∑_{i<j} ρ_{ij}u_i u_j 或以协方差块合成。
- 覆盖口径统一:在数据与发布侧选择其一并保持一致:k 覆盖 / alpha 显著性 / quantile[p_lo,p_hi]。
IV. 协方差建模(Covariance Modeling)
- 组内相关:同一 cov_group 内采用块结构或核模型(exp(−|Δx|/L_c)、AR(1)、Matérn、常数相关 ρ)。
- 跨组相关:默认独立;若存在耦合(如温度系数与折射率),显式登记交叉协方差并与《误差预算卡》一致。
- 路径函数:对 n_eff(ell) 按路径核 K(Δℓ) 构造 Σ(ℓ_i,ℓ_j),给出 σ^2/L_c 等参数;与第4/5章的步长与对齐约束一致。
- 数值稳定:确保 Σ 正定;必要时加抖动 Σ ← Σ + εI(ε 为目标方差的 1e-6~1e-3)。
V. 路径量统一口径(Normative Path Forms)
- 到达时(两种等价):
T_arr = ( 1 / c_ref ) * ( ∫ n_eff d ell );T_arr = ( ∫ ( n_eff / c_ref ) d ell )。 - 相位:
Phi = ( 2π / λ_ref ) * ( ∫ n_eff d ell )。
正文显式 gamma(ell)、d ell;数据侧记录 delta_form;路径数组满足 len(gamma_ell)=len(d_ell)=len(n_eff)≥2。
VI. 与 Splits/Versioning/Freshness 的耦合(Coupling)
- 按 split 估计:在 train/val/test/holdout/slice_k 内分别估计 u/Σ,避免跨 split 泄漏与偏置。
- 版本迁移:版本升级(MAJOR/MINOR/PATCH)需给出 u/Σ 变更说明与迁移/回滚策略;audit.jsonl 记录差异。
- 新鲜度影响:clock_state="locked" 且 |ts_start − calib.timestamp| ≤ τ_calib 时采用基准 u/Σ;否则上调不确定度或隔离为 [Restricted]。
VII. 字段级登记(Field-Level Registration)
在数据侧附加:- uncertainty{ type(A|B|A/B), estimate, distribution, coverage };
- cov_group(如 timing|optics|medium|algo|env|geo);
- (可选)cov_model{ kernel, params } 与 references[]。
字段示例(片段)
obs:
T_arr:
unit: "s"
uq:
type: "A"
estimate: 1.5e-9
distribution: "normal"
coverage: { k: 2 }
cov_group: "medium"
Phi:
unit: "rad"
uq:
type: "A/B"
estimate: 0.012
distribution: "student"
coverage: { quantile: [0.025, 0.975] }
cov_group: "medium"
VIII. 质量门映射(Gates Mapping,数据级)
- G4|量纲闭合:I70-dim_check 通过,p_dim = 1.0。
- G6|覆盖口径:coverage ∈ {k, alpha, quantile} 与发布一致。
- G7|协方差一致:cov_group/Σ 与《误差预算卡》一致,Σ 正定。
- G1/G3/G5/G8:随结构/路径/新鲜度/唯一性校验(见第7章)。
- 触发 S1–S5(量纲失败/路径缺失/新鲜度失效/协方差失配/引用不合规)即拒收或进入 [Restricted]。
IX. 机读配置(Machine-Readable Configs)
A. dataset_uq.yaml
version: "1.0.0"
targets: ["T_arr","Phi","epsilon_flux","Q_res","p_dim"]
methods:
T_arr: { type: "delta", jacobian: "auto", cov_group: "medium" }
Phi: { type: "mc", draws: 10000, coverage: { quantile: [0.025, 0.975] } }
covariance:
medium: { kernel: "exp", params: { sigma2: 9.0e-6, L_c_m: 25.0 } }
coverage:
mode: "k" # k|alpha|quantile
k: 2
split_scope: "per_split" # per_split|global|per_slice
freshness:
policy: { tau_calib_s_max: 86400, clock_state: "locked" }
outputs:
attach: ["uq_summary.json","cov_blocks.json"]
B. uq_summary.json(示例)
{
"split": "test",
"T_arr": { "point": 1.23e-8, "U_k2": 1.5e-9 },
"Phi": { "median": 0.035, "q025": 0.028, "q975": 0.043 },
"epsilon_flux": { "p95": 0.011 },
"Q_res": 0.13
}
X. 验证与监控(Validation & Monitoring)
- /validate:输出各 split 的 u/Σ 概要、覆盖口径与门阈对照、PD 检查与 stops_triggered。
- 在线指标:u(T_arr)、U=k·u_c、interval_overlap、Σ 谱半径、Q_res、p_dim。
- 告警:PD 失败、区间不稳定、覆盖不一致、门越界;支持抑制窗口与升级策略。
XI. 反例与修正(Anti-Patterns & Fixes)
- 反例:仅报均值,不给区间 → 修正:补充 k/alpha/quantile 区间与收敛诊断。
- 反例:T_arr = ∫ n_eff / c_ref d ell(缺括号)→ 修正:括号化为统一口径。
- 反例:Σ 非 PD 或与 cov_group 不一致 → 修正:调整核/参数或切稳健代理;与误差卷对齐。
- 反例:coverage 在数据与发布侧不一致 → 修正:统一模式与参数。
XII. 交叉引用(Cross-References)
- 结构与 Schema:见第4章;Splits/Versioning/Freshness:见第6章;质量门与完整性:见第7章。
- 与《管线卡》:UQ 耦合(Ch.10)。
- 与《误差预算卡》:协方差与传播(Ch.5/Ch.6)、区间与阈值映射(Ch.8/Ch.9)。
XIII. 执行勾选清单(Checklist)
- dataset_uq.yaml 已声明方法(Δ/MC/自举)、覆盖口径与 split 范围;字段级 uncertainty 与 cov_group 已登记。
- 路径量显式 gamma/measure/delta_form;I70-dim_check 通过,p_dim = 1.0。
- Σ 正定且与《误差预算卡》配置一致;uq_summary.json 与门阈对照通过。
- /validate 报告列示区间、PD 检查与 stops_triggered;在线监控覆盖 u/Σ/Q_res/p_dim。
- 发布包包含 uq_summary.json/cov_blocks.json/check_dim_report.json 与签名;引用与版本合规(锚点直指率 ≥ 90%)。
版权与许可(CC BY 4.0)
版权声明:除另有说明外,《能量丝理论》(含文本、图表、插图、符号与公式)的著作权由作者(“屠广林”先生)享有。
许可方式:本作品采用 Creative Commons 署名 4.0 国际许可协议(CC BY 4.0)进行许可;在注明作者与来源的前提下,允许为商业或非商业目的进行复制、转载、节选、改编与再分发。
署名格式(建议):作者:“屠广林”;作品:《能量丝理论》;来源:energyfilament.org;许可证:CC BY 4.0。
首次发布: 2025-11-11|当前版本:v5.1
协议链接:https://creativecommons.org/licenses/by/4.0/