43-EFT.WP.Data.DatasetCards v1.0 | 第12章质量评估与基线 | 能量丝理论

第12章质量评估与基线

I. 章节目的与范围

。 禁用中文固化质量门（通过标准）、覆盖率指标与基线任务/指标的统一口径；定义评测协议、统计显著性与复现实验要求；与切分、标签、本体、计量与不确定度保持一致。所有键名使用 snake_case；跨卷引用采用“卷名+版本+锚点”，数学表达使用反引号与括号，

II. 术语与依赖

术语来源：通用术语遵循《EFT.WP.Core.Terms v1.0》，本章仅增量定义质量与基线相关字段。
依赖卷：数据契约/导出：《Core.DataSpec v1.0》；计量/单位与量纲校核：《Core.Metrology v1.0》；切分与分发：第11章；标签与本体：第8章；不确定度与误差预算：第10章；引用与版本携带：引用规范 v0.1。

III. 字段与结构（规范性）

quality:

gates: # 质量门（发布需全部通过）

- {name: "label_consistency", threshold: 0.98, metric: "kappa"}

- {name: "leakage", threshold: 0.0, metric: "leakage_rate"}

- {name: "coverage_min", threshold: 0.99, metric: "split_coverage"}

- {name: "checksum_integrity", threshold: 1.0, metric: "sha256_ok_ratio"}

coverage: # 覆盖与分布监测

samples: 0 # 发布时替换为实际样本数

per_class: {} # {"FRB": 520, "RFI": 2100, ...}

per_region: {} # 空间/站点/通道等维度

ci_method: "bootstrap-bca" # 置信区间方法

target_ci: 0.95

baseline:

tasks: # 基线任务清单（分类/检索/回归/检测…）

- {name:"cls_frb_vs_rfi", type:"classification", split:"test"}

metrics: # 指标与定义

- {name:"accuracy"}

- {name:"f1_macro"}

- {name:"roc_auc"}

- {name:"pr_auc"}

- {name:"ece"} # Expected Calibration Error

- {name:"brier"}

- {name:"rmse"} # 回归/时序类

- {name:"map"} # 检测/检索类

eval_protocol: # 评测协议

splits: "frozen" # 必须使用冻结切分

seeds: [0,1,2,3,4]

repeats: 5

ci: {method:"bootstrap-bca", level:0.95}

significance: {test:"permutation", alpha:0.05}

fairness: {by:["class","region"], gap_metric:"abs_diff"}

robustness: {shift_tests:["snr_drop","time_jitter","spec_notch"]}

reports: # 产出与可追溯

tables: ["quality/summary.csv","quality/per_class.csv"]

plots: ["quality/roc.png","quality/pr.png","quality/calibration.png"]

see:

- "EFT.WP.Core.DataSpec v1.0:EXPORT"

- "EFT.WP.Core.Metrology v1.0:check_dim"

（与第11章冻结切分、与第8章标签/本体、与第9–10章计量/不确定度相互一致。）

IV. 质量门（Gates）定义

一致性：标注一致性 kappa 或 f1_agreement ≥ 阈值；冲突样本需进入返工队列。
泄漏：跨 splits 的对象/时间窗泄漏率 = 0；来源于第6–7章审计。
覆盖：各类/区域/模态覆盖率 ≥ 目标下限，区间以 target_ci 呈现。
完整性：包与分片 sha256 验证率 = 1.0；与导出清单对表。

V. 覆盖率与分布监测

统计口径：对 per_class / per_region / per_modality 报告比例、计数与 95% 置信区间；默认 Bootstrap-BCa。
漂移监测：对比训练/验证/测试分布（KL/JS/KS），若超阈则在报告中标注“分布偏移”。
计量一致：所有数值单位与量纲由第9章 metrology 校核。

VI. 基线任务与指标定义

分类：accuracy、f1_macro、roc_auc、pr_auc；校准：ece、brier；
检索/检测：map、mAP@[IoU]、top-k recall；
回归/时序：rmse、mae、mape、nll；
置信与显著性：除点估计外提供区间；比较两基线时给出置换检验或配对 Bootstrap 的 p 值。
物理量一致：涉及 SNR = ( signal / noise ) 等必须以反引号与括号表达并通过 check_dim。

VII. 评测协议（Eval Protocol）

冻结切分：仅允许使用第11章冻结索引；严禁自定义拆分。
随机性：seeds、repeats 固定；报告均值±置信区间。
稳健性：定义合成分布移位（snr_drop、time_jitter、spec_notch 等），报告相对降幅。
公平性：对 class/region 等敏感维度报告性能差异 gap_metric，超阈需说明。

VIII. 与不确定度/计量的耦合

（来自第10章）时，需先在单位与量纲上完成归一，再合成报告；对 T_arr 等路径依赖量的指标，登记 delta_form、path="gamma(ell)"、measure="d ell" 并通过 check_dim。计量不确定度（重采样/Bootstrap）与统计不确定度报告模型输出的

IX. 报告与可追溯

表格：总体与分层指标表；图形：ROC、PR、校准图、覆盖率瀑布图。
工件：所有表与图在 reports.tables/plots 登记，并在导出清单中列出与 sha256 对应。
文字口径：显式说明指标定义、区间含义（置信/覆盖）、显著性检验方法。

X. 机器可读片段（可直接嵌入卡片）

quality:

gates:

- {name:"label_consistency", metric:"kappa", threshold:0.98}

- {name:"leakage", metric:"leakage_rate", threshold:0.0}

- {name:"coverage_min", metric:"split_coverage", threshold:0.99}

coverage:

samples: 15000

per_class: {"FRB":520, "RFI":2100, "Noise":12380}

ci_method: "bootstrap-bca"

target_ci: 0.95

baseline:

tasks:

- {name:"cls_frb_vs_rfi", type:"classification", split:"test"}

metrics: [{name:"f1_macro"}, {name:"roc_auc"}, {name:"ece"}, {name:"brier"}]

eval_protocol:

splits: "frozen"

seeds: [0,1,2,3,4]

repeats: 5

ci: {method:"bootstrap-bca", level:0.95}

significance: {test:"permutation", alpha:0.05}

robustness: {shift_tests:["snr_drop","time_jitter","spec_notch"]}

reports:

tables: ["quality/summary.csv","quality/per_class.csv"]

plots: ["quality/roc.png","quality/pr.png","quality/calibration.png"]

see:

- "EFT.WP.Core.DataSpec v1.0:EXPORT"

- "EFT.WP.Core.Metrology v1.0:check_dim"

（与导出清单 export_manifest.artifacts[]、references[] 对表。）

XI. 与导出清单的耦合（规范性）

export_manifest:

artifacts:

- {path:"quality/summary.csv", sha256:"..."}

- {path:"quality/per_class.csv", sha256:"..."}

- {path:"quality/roc.png", sha256:"..."}

- {path:"quality/calibration.png", sha256:"..."}

references:

- "EFT.WP.Core.DataSpec v1.0:EXPORT"

- "EFT.WP.Core.Metrology v1.0:check_dim"

（工件必须可校验并携带引用锚点；禁止短码/别名。）

XII. 本章合规自检

已设定并通过所有质量门：一致性、泄漏、覆盖与完整性。
基线任务、指标与评测协议完整，切分冻结、随机性与显著性方法明确。
指标与数值单位/量纲一致，必要时与第10章不确定度合成；涉及 T_arr 已登记路径/测度并通过 check_dim。
报告表与图已纳入导出清单并具 sha256；引用携带“卷名+版本+锚点”。