附录F 数据集与基准


一句话目标:给出拓扑图谱相关任务的公开数据集、评测协议与基准指标,确保跨团队结果的可比性、可复现与可审计。


I. 范围与对象


II. 名词与变量


III. 数据集目录与内容(建议清单)

每个样本包含:


IV. 公设 P90F-*


V. 最小方程 S90F-*(评分与聚合)

unit(Score) = "[1]";各任务子分与总分需分别上报。


VI. 评测流程 M90-F1(提交→复核→发布)

  1. 准备与自测
    • 拉取 eval-kit 与 RefCond;在 val 上生成 manifest.topo.case/atlas/runtime。
    • 校验两口径与 check_dim、contracts 通过(见附录B)。
  2. 生成提交包
    • 逐样本产出 manifest.* 与工件 artifacts,写入 submission.jsonl(每行一条结果 URI 或 hash://)。
    • 附上 code.ver/git/seed/runtime 与 deps。
  3. 线上评测
    • 评测端重算 D_ref/Inv_ref 或加载参考,执行 S90F-*;
    • 复核 license/provenance 与 P90F-*;泄露则整包作废。
  4. 发布与存档
    • 生成 report.json,写入 contracts 与分项分数;
    • 写入排行榜与面板映射键。

VII. 契约与阈值(C90F-*)


VIII. 实现绑定 I90-*(数据与评测)


IX. 交叉引用


X. 质量与风控


小结