目录文档-技术白皮书(V5.05)52-数据集卡 Template v1.0

第5章 标注、标签与审校(Annotation/Labeling)


I. 目的与范围(Purpose & Scope)


II. 输入与依赖(Inputs & Dependencies)


III. 标注流程(Annotation Process)


IV. 标签结构(Labeling Schema)

  1. 字段定义
    • label.value(标注值),label.type ∈ {class, span, bbox, point, numeric, path}
    • label.unit(如 rad/s, 1, s),label.dim(量纲)
    • label.confidence(0..1)、label.rationale(可空)
    • label.coverage(k/alpha/quantile 其一)
  2. 路径型标签(若适用):label.path{ gamma_ell[], d_ell[], delta_form, target ∈ {T_arr,Phi} }。
  3. 层级与多任务:task_id、label.group、dependencies[];任务间一致性约束在 constraints 声明。
  4. 合法值与互斥:enum.values[]、mutex、requires 与 implies 规则。

V. 审校与一致性(Review & Consistency)

  1. 一致性度量
    • 分类:κ(Cohen/Fleiss)、一致率、宏/微平均 F1(若有参考)。
    • 数值:MAE/MSE、CCC(一致性相关)与区间对齐(k/alpha/quantile)。
    • 路径:DTW/Hausdorff/分段 RMSE,步长与对齐窗口一致。
  2. 判定阈值:κ ≥ κ_min、MAE ≤ τ_mae、interval_overlap ≥ τ_overlap,不达标进入仲裁或再标注。
  3. 抽样复核:按批次/标注者/难例分层复核比例 r_review;差错入 quality.flags。

VI. 质量门与校验(Gates & Validation)


VII. 字段表示(最小模板)

字段

类型

单位

量纲

说明

约束

see

task_id

string

1

1

标注任务标识

唯一

label.value

string/number/array

见下

见下

标注值

与 label.type 匹配

Contract

label.type

enum

1

1

class/span/bbox/point/numeric/path

必填

Contract

label.unit

string

SI

见下

单位

与字段一致

label.dim

string

1

量纲

与单位一致

label.confidence

number

1

1

置信度 [0,1]

≥0 ∧ ≤1

label.coverage

object

1

1

`k

alpha

quantile`

annotator_id

string

1

1

匿名标识

脱敏

Privacy

rationale

string

1

1

备注/判据

可空


VIII. 机读契约(Machine-Readable Contracts)
A. label_schema.json(节选)

{

"$schema":"https://json-schema.org/draft/2020-12/schema",

"title":"Labeling v1.0.0",

"type":"object",

"required":["task_id","label"],

"properties":{

"task_id":{"type":"string"},

"label":{

"type":"object",

"required":["type","value"],

"properties":{

"type":{"enum":["class","span","bbox","point","numeric","path"]},

"value":{},

"unit":{"type":"string"},

"dim":{"type":"string"},

"confidence":{"type":"number","minimum":0,"maximum":1},

"coverage":{"type":"object"}

}

},

"annotator_id":{"type":"string"}

}

}

B. annotation_contract.yaml(流程与阈值)

version: "1.0.0"

tasks:

- id: "cls-01"

type: "class"

guide: "docs/guidelines_cls01.md"

k_rep: 2

kappa_min: 0.75

- id: "path-01"

type: "path"

guide: "docs/guidelines_path01.md"

path:

required: true

gamma: "gamma(ell)"

measure: "d ell"

delta_form: "general"

metrics:

dtw_max: 0.15

overlap_min: 0.80

coverage:

mode: "k"

k: 2

review:

r_review: 0.1

adjudication: true

privacy:

deid_policy: "privacy_policy.yaml"


C. 审计事件 audit.jsonl(示例行)

JSON json
{
  "ts": "2025-09-24T16:10:00Z",
  "event": "annotate",
  "record_id": "01H...",
  "task_id": "cls-01",
  "annotator_id": "anon-023",
  "confidence": 0.92,
  "checksum": "sha256:..."
}

IX. 路径量统一口径(Normative Path Forms)

正文显式路径与测度;数组长度一致;步长与对齐满足第4章/第5章约束。


X. 反例与修正(Anti-Patterns & Fixes)


XI. 交叉引用(Cross-References)


XII. 执行勾选清单(Checklist)


版权与许可:除另有说明外,《能量丝理论》(含文本、图表、插图、符号与公式)的著作权由作者(屠广林)享有。
许可方式(CC BY 4.0):在注明作者与来源的前提下,允许复制、转载、节选、改编与再分发。
署名格式(建议):作者:屠广林|作品:《能量丝理论》|来源:energyfilament.org|许可证:CC BY 4.0
验证召集: 作者独立自费、无雇主无资助;下一阶段将优先在最愿意公开讨论、公开复现、公开挑错的环境中推进落地,不限国家。欢迎各国媒体与同行抓住窗口组织验证,并与我们联系。
版本信息: 首次发布:2025-11-11 | 当前版本:v6.0+5.05