目录文档-技术白皮书(V5.05)43-EFT.WP.Data.DatasetCards v1.0

第8章 隐私、安全与合规:脱敏 / 访问 / 版权


I. 章节目的与范围

,确保跨数据集的一致性、可复现与可比性;明确多语言标签策略、层级关系与对外映射;所有键名使用 snake_case,跨卷引用采用“卷名+版本+锚点”。 规范化记录固化标签体系、编码方案与本体结构的

II. 术语与依赖


III. 字段与结构(规范性)

labels:

schema_version: "v1.0"

taxonomy: # 分层本体(树/有向无环图)

root: "event"

nodes:

- {id:"FRB", parent:"event", kind:"class", definition:"fast radio burst"}

- {id:"RFI", parent:"event", kind:"artifact", definition:"radio frequency interference"}

- {id:"Noise", parent:"event", kind:"background"}

class_map: # 训练/评测用的可用类别集合(扁平或层级裁剪)

include: ["FRB","RFI","Noise"]

exclude: []

encoding:

type: "multi_class" # multi_class | multi_label | hierarchical

policy:

positive_rules: ["explicit-evidence"]

negative_rules: ["contradiction-or-missing-signal"]

tie_breaker: "lowest-risk"

attributes: # 类属性/标签属性(可选)

- {name:"confidence", type:"number", unit:"%", range:[0,100]}

multilingual: # 多语言映射(标签名/定义)

default_lang: "en"

map:

FRB: {en:"FRB", zh:"快速射电暴"}

RFI: {en:"RFI", zh:"射频干扰"}

Noise: {en:"Noise", zh:"噪声"}

guidelines: # 标注执行与例外处理

sources: ["docs/label_guide_v1.pdf"]

precedence: ["safety-first","no-PII"]

annotation: # 标注过程记录

tool: "labelstudio-1.12"

workforce: {type:"expert", iaa_target:"kappa>=0.8"}

sampling_ref: "sampling.strategy:stratified"

quality: # 质量与一致性指标

iaa: {metric:"cohen_kappa", value:0.82}

consistency: {cross_split:"no-leakage"}

mapping: # 对外本体映射(如外部标准或既有基准集)

- {to:"ext.catalog.v2", from_id:"FRB", to_id:"frb"}

- {to:"ext.catalog.v2", from_id:"RFI", to_id:"rfi"}

see:

- "EFT.WP.Core.Terms v1.0:P10-*"

- "EFT.WP.Core.DataSpec v1.0:EXPORT"

(导出物与引用锚点在 export_manifest.references[] 中体现。)


IV. 本体构建与层级约束


V. 编码与判定策略

  1. 编码类型
    • multi_class:单样本单标签;
    • multi_label:单样本多标签,需定义互斥/可并存集合;
    • hierarchical:遵循父子一致性(父类阳性时子类方可阳性)。
  2. 判定规则:positive_rules、negative_rules、tie_breaker 必显式声明并与标注指南一致。

VI. 多语言策略


VII. 标注流程与质量


VIII. 计量与符号(如涉及物理量)

禁用中文,并通过 check_dim;数学表达(如 SNR = ( signal / noise ))需以反引号与括号规范表达,单位与范围若标签或属性携带物理量(如 flux, SNR),一律在 attributes[] 中声明

IX. 对外映射与兼容策略


X. 示例片段(可直接嵌入卡片)

labels:

schema_version: "v1.0"

taxonomy:

root: "event"

nodes:

- {id:"FRB", parent:"event", kind:"class", definition:"fast radio burst"}

- {id:"RFI", parent:"event", kind:"artifact", definition:"radio frequency interference"}

- {id:"Noise", parent:"event", kind:"background"}

class_map:

include: ["FRB","RFI","Noise"]

exclude: []

encoding:

type: "multi_class"

policy: {positive_rules:["explicit-evidence"], negative_rules:["contradiction-or-missing-signal"], tie_breaker:"lowest-risk"}

multilingual:

default_lang: "en"

map: {FRB:{en:"FRB", zh:"快速射电暴"}, RFI:{en:"RFI", zh:"射频干扰"}, Noise:{en:"Noise", zh:"噪声"}}

quality:

iaa: {metric:"cohen_kappa", value:0.82}

consistency: {cross_split:"no-leakage"}

mapping:

- {to:"ext.catalog.v2", from_id:"FRB", to_id:"frb"}

see:

- "EFT.WP.Core.Terms v1.0:P10-*"

- "EFT.WP.Core.DataSpec v1.0:EXPORT"

(对外导出时在 export_manifest.references[] 同步上述引用锚点。)


XI. 本章合规自检


版权与许可:除另有说明外,《能量丝理论》(含文本、图表、插图、符号与公式)的著作权由作者(屠广林)享有。
许可方式(CC BY 4.0):在注明作者与来源的前提下,允许复制、转载、节选、改编与再分发。
署名格式(建议):作者:屠广林|作品:《能量丝理论》|来源:energyfilament.org|许可证:CC BY 4.0
验证召集: 作者独立自费、无雇主无资助;下一阶段将优先在最愿意公开讨论、公开复现、公开挑错的环境中推进落地,不限国家。欢迎各国媒体与同行抓住窗口组织验证,并与我们联系。
版本信息: 首次发布:2025-11-11 | 当前版本:v6.0+5.05