目录 / 文档-技术白皮书(V5.05) / 43-EFT.WP.Data.DatasetCards v1.0
I. 章节目的与范围
,确保跨数据集的一致性、可复现与可比性;明确多语言标签策略、层级关系与对外映射;所有键名使用 snake_case,跨卷引用采用“卷名+版本+锚点”。 规范化记录固化标签体系、编码方案与本体结构的II. 术语与依赖
- 术语来源:通用术语遵循《EFT.WP.Core.Terms v1.0》,本章仅增量定义与标签/本体直接相关的字段与约束。
- 依赖卷:数据契约/导出:《Core.DataSpec v1.0》;计量/单位与量纲校核:《Core.Metrology v1.0》;涉及路径/到达时等符号表达遵循《Core.Equations v1.1》,数理表达禁用中文并以反引号包裹。
III. 字段与结构(规范性)
labels:
schema_version: "v1.0"
taxonomy: # 分层本体(树/有向无环图)
root: "event"
nodes:
- {id:"FRB", parent:"event", kind:"class", definition:"fast radio burst"}
- {id:"RFI", parent:"event", kind:"artifact", definition:"radio frequency interference"}
- {id:"Noise", parent:"event", kind:"background"}
class_map: # 训练/评测用的可用类别集合(扁平或层级裁剪)
include: ["FRB","RFI","Noise"]
exclude: []
encoding:
type: "multi_class" # multi_class | multi_label | hierarchical
policy:
positive_rules: ["explicit-evidence"]
negative_rules: ["contradiction-or-missing-signal"]
tie_breaker: "lowest-risk"
attributes: # 类属性/标签属性(可选)
- {name:"confidence", type:"number", unit:"%", range:[0,100]}
multilingual: # 多语言映射(标签名/定义)
default_lang: "en"
map:
FRB: {en:"FRB", zh:"快速射电暴"}
RFI: {en:"RFI", zh:"射频干扰"}
Noise: {en:"Noise", zh:"噪声"}
guidelines: # 标注执行与例外处理
sources: ["docs/label_guide_v1.pdf"]
precedence: ["safety-first","no-PII"]
annotation: # 标注过程记录
tool: "labelstudio-1.12"
workforce: {type:"expert", iaa_target:"kappa>=0.8"}
sampling_ref: "sampling.strategy:stratified"
quality: # 质量与一致性指标
iaa: {metric:"cohen_kappa", value:0.82}
consistency: {cross_split:"no-leakage"}
mapping: # 对外本体映射(如外部标准或既有基准集)
- {to:"ext.catalog.v2", from_id:"FRB", to_id:"frb"}
- {to:"ext.catalog.v2", from_id:"RFI", to_id:"rfi"}
see:
- "EFT.WP.Core.Terms v1.0:P10-*"
- "EFT.WP.Core.DataSpec v1.0:EXPORT"
(导出物与引用锚点在 export_manifest.references[] 中体现。)
IV. 本体构建与层级约束
- 结构:taxonomy 支持树或 DAG;每个 node 必含 id/parent/kind/definition,id 在数据集内全局唯一。
- 裁剪:class_map.include[] 为可训练/评测集合;exclude[] 为暂不参与学习但保留在本体中的类别。
- 一致性:class_map 必与 taxonomy 一致,禁止悬挂/孤立节点;变更需同步更新示例与基线配置。
V. 编码与判定策略
- 编码类型:
- multi_class:单样本单标签;
- multi_label:单样本多标签,需定义互斥/可并存集合;
- hierarchical:遵循父子一致性(父类阳性时子类方可阳性)。
- 判定规则:positive_rules、negative_rules、tie_breaker 必显式声明并与标注指南一致。
VI. 多语言策略
- multilingual.default_lang 设为工作语言;map 提供标签名与定义的多语映射;跨语一致性以英文定义为基准。
- 外部材料面向公众时仅使用稳定线版本标签名(如 v1.*),并在 export_manifest.references[] 标注。
VII. 标注流程与质量
- 流程:记录标注工具、批次、人员画像(专家/众包/混合)、复核环节与争议处理规则。
- 一致性:至少报告一致性指标(如 Cohen’s κ、Fleiss’ κ),并给出通过阈值与不达标的返工策略。
- 泄漏防控:标注与预处理/切分流程解耦;严禁使用验证/测试集统计量或样本对训练进行反向修正。
VIII. 计量与符号(如涉及物理量)
。禁用中文,并通过 check_dim;数学表达(如 SNR = ( signal / noise ))需以反引号与括号规范表达,单位与范围若标签或属性携带物理量(如 flux, SNR),一律在 attributes[] 中声明IX. 对外映射与兼容策略
- mapping[] 用于对接外部本体/基准集;需声明目标版本与 from_id/to_id 的一一或多对一关系及冲突处理策略(优先本卷定义)。
- 若外部本体含路径/到达时相关定义,引用《Core.Equations v1.1》条文进行口径对齐。
X. 示例片段(可直接嵌入卡片)
labels:
schema_version: "v1.0"
taxonomy:
root: "event"
nodes:
- {id:"FRB", parent:"event", kind:"class", definition:"fast radio burst"}
- {id:"RFI", parent:"event", kind:"artifact", definition:"radio frequency interference"}
- {id:"Noise", parent:"event", kind:"background"}
class_map:
include: ["FRB","RFI","Noise"]
exclude: []
encoding:
type: "multi_class"
policy: {positive_rules:["explicit-evidence"], negative_rules:["contradiction-or-missing-signal"], tie_breaker:"lowest-risk"}
multilingual:
default_lang: "en"
map: {FRB:{en:"FRB", zh:"快速射电暴"}, RFI:{en:"RFI", zh:"射频干扰"}, Noise:{en:"Noise", zh:"噪声"}}
quality:
iaa: {metric:"cohen_kappa", value:0.82}
consistency: {cross_split:"no-leakage"}
mapping:
- {to:"ext.catalog.v2", from_id:"FRB", to_id:"frb"}
see:
- "EFT.WP.Core.Terms v1.0:P10-*"
- "EFT.WP.Core.DataSpec v1.0:EXPORT"
(对外导出时在 export_manifest.references[] 同步上述引用锚点。)
XI. 本章合规自检
- taxonomy 拥有唯一根,class_map 与之一致且无悬挂节点;所有 id 在卡片内唯一。
- encoding 类型与判定规则完整;多标签/层级任务声明互斥/并存与父子一致性约束。
- 多语言映射完整,英文定义为基准;对外材料仅使用稳定线标签并在 export_manifest.references[] 体现。
- 如涉及物理量,属性含单位与范围并通过 check_dim;数学表达以反引号与括号规范书写,不出现中文。
- 标注流程记录工具/批次/人员与一致性指标;泄漏防控与返工策略到位。
版权与许可:除另有说明外,《能量丝理论》(含文本、图表、插图、符号与公式)的著作权由作者(屠广林)享有。
许可方式(CC BY 4.0):在注明作者与来源的前提下,允许复制、转载、节选、改编与再分发。
署名格式(建议):作者:屠广林|作品:《能量丝理论》|来源:energyfilament.org|许可证:CC BY 4.0
验证召集: 作者独立自费、无雇主无资助;下一阶段将优先在最愿意公开讨论、公开复现、公开挑错的环境中推进落地,不限国家。欢迎各国媒体与同行抓住窗口组织验证,并与我们联系。
版本信息: 首次发布:2025-11-11 | 当前版本:v6.0+5.05