目录 / 文档-技术白皮书(V5.05) / 52-数据集卡 Template v1.0
第5章 标注、标签与审校(Annotation/Labeling)
I. 目的与范围(Purpose & Scope)
- 规范数据集的标注流程(Annotation)、标签结构(Labeling Schema)与审校机制(Review/Audit),覆盖标注协议、人员与工具、标签契约、质量控制与一致性评估、隐私与最小化策略、以及发布口径。
- 涉及路径量(到达时/相位)之标签,正文显式 gamma(ell) 与测度 d ell,数据侧记录 delta_form ∈ {general, factored};发布要求 p_dim = 1.0 并随附 check_dim_report.json。
II. 输入与依赖(Inputs & Dependencies)
- 契约与结构:schema.json/contract.yaml(见第4章),标签字段在契约中声明类型、单位与量纲。
- 来源与血缘:provenance.yaml/lineage_graph.json(见第3章),标注批次纳入 lineage DAG。
- 计量与覆盖:与《误差预算卡》对齐 coverage ∈ {k, alpha, quantile} 与 cov_group/Σ;与《参数注册卡》一致的版本/新鲜度策略。
- 引用与版本:使用“卷名 + 版本 + 锚点(P/S/M/I)”,锚点直指率 ≥ 90%,禁止外链/别名。
III. 标注流程(Annotation Process)
- 协议:定义任务(分类/回归/时序/路径/多模态)、说明书(指南/示例/反例)、判定准则与冲突名。
- 人员与工具:annotator_id(匿名化)、工具版本、训练与校验题。
- 批次与任务单:batch_id、样本分配(随机/分层/困难样本优先)、最小重复标注 k_rep。
- 回收与审校:多数表决/经验加权/仲裁(adjudication),差异阈值触发复核。
- 隐私与最小化:遵循 privacy_policy.yaml,禁止敏感原文落日志;必要时做局部遮蔽/脱敏。
IV. 标签结构(Labeling Schema)
- 字段定义:
- label.value(标注值),label.type ∈ {class, span, bbox, point, numeric, path}
- label.unit(如 rad/s, 1, s),label.dim(量纲)
- label.confidence(0..1)、label.rationale(可空)
- label.coverage(k/alpha/quantile 其一)
- 路径型标签(若适用):label.path{ gamma_ell[], d_ell[], delta_form, target ∈ {T_arr,Phi} }。
- 层级与多任务:task_id、label.group、dependencies[];任务间一致性约束在 constraints 声明。
- 合法值与互斥:enum.values[]、mutex、requires 与 implies 规则。
V. 审校与一致性(Review & Consistency)
- 一致性度量:
- 分类:κ(Cohen/Fleiss)、一致率、宏/微平均 F1(若有参考)。
- 数值:MAE/MSE、CCC(一致性相关)与区间对齐(k/alpha/quantile)。
- 路径:DTW/Hausdorff/分段 RMSE,步长与对齐窗口一致。
- 判定阈值:κ ≥ κ_min、MAE ≤ τ_mae、interval_overlap ≥ τ_overlap,不达标进入仲裁或再标注。
- 抽样复核:按批次/标注者/难例分层复核比例 r_review;差错入 quality.flags。
VI. 质量门与校验(Gates & Validation)
- G1|Schema 完整:标签字段在 schema.json/contract.yaml 明确,类型/单位/量纲齐全。
- G2|引用合规:see[]/references[] 锚点直指率 ≥ 90%。
- G3|路径规范:路径型标签的 gamma/measure/delta_form 齐备;len(path)≥2、Δell 合规。
- G4|量纲闭合:I70-dim_check 通过,p_dim = 1.0。
- G6|覆盖口径:label.coverage ∈ {k, alpha, quantile} 与发布一致。
- G8|唯一性:record_id+task_id 唯一;审计事件完整。
- 触发 S1–S5(量纲失败/路径缺失/引用不合规等)即拒收或再标注,必要时标注 [Restricted]。
VII. 字段表示(最小模板)
字段 | 类型 | 单位 | 量纲 | 说明 | 约束 | see |
|---|---|---|---|---|---|---|
task_id | string | 1 | 1 | 标注任务标识 | 唯一 | — |
label.value | string/number/array | 见下 | 见下 | 标注值 | 与 label.type 匹配 | Contract |
label.type | enum | 1 | 1 | class/span/bbox/point/numeric/path | 必填 | Contract |
label.unit | string | SI | 见下 | 单位 | 与字段一致 | — |
label.dim | string | — | 1 | 量纲 | 与单位一致 | — |
label.confidence | number | 1 | 1 | 置信度 [0,1] | ≥0 ∧ ≤1 | — |
label.coverage | object | 1 | 1 | `k | alpha | quantile` |
annotator_id | string | 1 | 1 | 匿名标识 | 脱敏 | Privacy |
rationale | string | 1 | 1 | 备注/判据 | 可空 | — |
VIII. 机读契约(Machine-Readable Contracts)
A. label_schema.json(节选)
{
"$schema":"https://json-schema.org/draft/2020-12/schema",
"title":"Labeling v1.0.0",
"type":"object",
"required":["task_id","label"],
"properties":{
"task_id":{"type":"string"},
"label":{
"type":"object",
"required":["type","value"],
"properties":{
"type":{"enum":["class","span","bbox","point","numeric","path"]},
"value":{},
"unit":{"type":"string"},
"dim":{"type":"string"},
"confidence":{"type":"number","minimum":0,"maximum":1},
"coverage":{"type":"object"}
}
},
"annotator_id":{"type":"string"}
}
}
B. annotation_contract.yaml(流程与阈值)
version: "1.0.0"
tasks:
- id: "cls-01"
type: "class"
guide: "docs/guidelines_cls01.md"
k_rep: 2
kappa_min: 0.75
- id: "path-01"
type: "path"
guide: "docs/guidelines_path01.md"
path:
required: true
gamma: "gamma(ell)"
measure: "d ell"
delta_form: "general"
metrics:
dtw_max: 0.15
overlap_min: 0.80
coverage:
mode: "k"
k: 2
review:
r_review: 0.1
adjudication: true
privacy:
deid_policy: "privacy_policy.yaml"
C. 审计事件 audit.jsonl(示例行)
IX. 路径量统一口径(Normative Path Forms)
- 到达时:T_arr = ( 1 / c_ref ) * ( ∫ n_eff d ell );T_arr = ( ∫ ( n_eff / c_ref ) d ell )。
- 相位:Phi = ( 2π / λ_ref ) * ( ∫ n_eff d ell )。
正文显式路径与测度;数组长度一致;步长与对齐满足第4章/第5章约束。
X. 反例与修正(Anti-Patterns & Fixes)
- 反例:仅给 gamma(ell),缺 d ell/delta_form → 修正:补齐并与 n_eff 对齐。
- 反例:T_arr = ∫ n_eff / c_ref d ell(缺括号)→ 修正:括号化为统一口径。
- 反例:无一致性/审校记录 → 修正:配置 k_rep/r_review 与 adjudication 并落审计。
- 反例:unit/dim 缺失 → 修正:补充单位与量纲并通过 I70-dim_check。
XI. 交叉引用(Cross-References)
- 结构与 Schema:见第4章;切分与版本:见第6章;质量门与完整性:见第7章;不确定度与协方差:见第8章。
- 与《管线卡》:阶段控制式与路径对齐(Ch.6/Ch.5)。
- 与《误差预算卡》:区间/覆盖与协方差(Ch.8/Ch.5/Ch.6)。
XII. 执行勾选清单(Checklist)
- label_schema.json/annotation_contract.yaml 完整且与第4章一致;标签字段单位与量纲齐全。
- 路径型标签显式 gamma/measure/delta_form;len(path) ≥ 2、Δell 合规。
- 一致性指标达标(κ/MAE/interval_overlap 等);抽样复核与仲裁记录完备。
- coverage 口径与发布一致;I70-dim_check 通过、p_dim = 1.0。
- 审计事件齐全,隐私最小化与去标识化执行;引用与版本合规(锚点直指率 ≥ 90%)。
版权与许可:除另有说明外,《能量丝理论》(含文本、图表、插图、符号与公式)的著作权由作者(屠广林)享有。
许可方式(CC BY 4.0):在注明作者与来源的前提下,允许复制、转载、节选、改编与再分发。
署名格式(建议):作者:屠广林|作品:《能量丝理论》|来源:energyfilament.org|许可证:CC BY 4.0
验证召集: 作者独立自费、无雇主无资助;下一阶段将优先在最愿意公开讨论、公开复现、公开挑错的环境中推进落地,不限国家。欢迎各国媒体与同行抓住窗口组织验证,并与我们联系。
版本信息: 首次发布:2025-11-11 | 当前版本:v6.0+5.05