24-EFT.WP.Particle.TopologyAtlas v1.0 | 附录F 数据集与基准 | 能量丝理论

附录F 数据集与基准

一句话目标：给出拓扑图谱相关任务的公开数据集、评测协议与基准指标，确保跨团队结果的可比性、可复现与可审计。

I. 范围与对象

覆盖的数据形态：二维/三维标量场x(r)、取值于 S^1/S^2 的相位/取向场θ(r), n(r)，以及时空序列x(r,t)、世界线集合 Γ(t)。
评测对象：拓扑密度 q(x)、持久同调 D 与景观 λ_D、图谱 Atlas={U_a, φ_a, ψ_a, T_ab}、不变量 Inv = {Q, Lk, Tw, Wr, ...}、检索嵌入 Z、运行态指标与 manifest.topo.*。
输出：基准任务定义、评分公式、提交与复核流程、许可与合规字段。
边界：所有评测需在一致 RefCond、τ_policy 与单位体系下进行；若不满足，结果不计分。

II. 名词与变量

数据集与分层：DS.syn（解析/可控合成）、DS.sim（物理仿真）、DS.exp（实验/实采）、DS.stream（流式）。
分割与难度：split ∈ {train, val, test, test-hard, OOD}；noise ∈ {low, med, high}。
评测核：d_B(D̂, D_ref), W_p(D̂, D_ref), Δ_cyc, sup|Σψ-1|, Recall@K, delta_form, delta_form_rt。
许可与追溯：license, provenance, seed, data_hash, RefCond。

III. 数据集目录与内容（建议清单）

每个样本包含：

IV. 公设 P90F-*

V. 最小方程 S90F-*（评分与聚合）

S90F-1（不变量误差）：err_Inv = Σ_{i∈Inv} w_i * | Inv̂_i - Inv_{i,gt} | / scale_i。
S90F-2（持久同调误差）：err_PD = α * d_B(D̂, D_ref) + (1-α) * W_p(D̂, D_ref)，α ∈ [0,1]。
S90F-3（图谱质量）：score_atlas = exp( - ( Δ_cyc / tol_cyc + sup|Σψ-1| / tol_ψ + κ / κ_max ) )，其中 κ = cond_max(∂φ)。
S90F-4（检索指标）：score_retr = 0.5*( Recall@K / R_min ) + 0.5*( 1 - mean(d_exact)/tol_rank )。
S90F-5（流式一致性）：penalty_stream = β1 * p95(delta_form_rt)/tol_rt + β2 * lag_ms_p95 / (2*τ_window)。
S90F-6（总分）：
Score = GM( clip(1 - norm(err_Inv)), clip(1 - norm(err_PD)), score_atlas, score_retr, clip(1 - penalty_stream) )，
其中 GM 为几何平均，clip(z) = min( max(z, 0), 1 )，norm(·) 以基线统计归一。

unit(Score) = "[1]"；各任务子分与总分需分别上报。

VI. 评测流程 M90-F1（提交→复核→发布）

准备与自测
- 拉取 eval-kit 与 RefCond；在 val 上生成 manifest.topo.case/atlas/runtime。
- 校验两口径与 check_dim、contracts 通过（见附录B）。
生成提交包
- 逐样本产出 manifest.* 与工件 artifacts，写入 submission.jsonl（每行一条结果 URI 或 hash://）。
- 附上 code.ver/git/seed/runtime 与 deps。
线上评测
- 评测端重算 D_ref/Inv_ref 或加载参考，执行 S90F-*；
- 复核 license/provenance 与 P90F-*；泄露则整包作废。
发布与存档
- 生成 report.json，写入 contracts 与分项分数；
- 写入排行榜与面板映射键。

VII. 契约与阈值（C90F-*）

C90F-01（完整性）：提交包须包含 manifest.*、submission.jsonl、signature；缺失即 fail。
C90F-02（不变量门）：err_Inv ≤ tol_Inv 且整数不变量满足取整门（见附录E C90-166）。
C90F-03（PD 稳定性门）：d_B ≤ tol_B 且 W_p ≤ tol_Wp。
C90F-04（图谱门）：Δ_cyc ≤ tol_cyc，sup|Σψ-1| ≤ 1e-6。
C90F-05（检索门）：Recall@K ≥ R_min 且 mean(d_exact) ≤ tol_rank。
C90F-06（流式门）：p95(delta_form_rt) ≤ tol_rt 且 lag_ms_p95 ≤ 2*τ_window。
C90F-07（许可门）：license ∈ {Apache-2.0, MIT, CC-BY-4.0, CC-BY-SA-4.0} 或明确商业许可；否则不计分。
C90F-08（可复现）：随机 seed、deps、code.ver 缺失或回放失败则降级或拒绝。

VIII. 实现绑定 I90-*（数据与评测）

I90-201 load_dataset(uri, split, filters) -> iterator(samples)
I90-202 render_refcond(meta) -> RefCond
I90-203 compute_reference_products(sample, policy) -> {Q_gt, Γ_ref, D_ref}
I90-204 evaluate_submission(submission, refs, rules) -> report
I90-205 aggregate_scores(per_sample, scheme="GM") -> leaderboard_entry
I90-206 check_leakage(train_meta, test_meta) -> {pass, evidence}
I90-207 emit_benchmark_manifest(results) -> manifest.bench
不变量：non_decreasing(τ)；Σ_a ψ_a ≡ 1；check_dim(all)；并行两口径与 delta_form 落盘。

IX. 交叉引用

X. 质量与风控

小结

本附录定义了拓扑图谱的数据集族、评测协议与聚合评分，并以 P90F/S90F/M90-F1/C90F/I90 形成从数据—算法—清单—排行榜的一体化闭环。
通过 RefCond、两口径与单位/量纲的强制规范，确保不同实现间结果可比、可复现、可审计。