目录 / 文档-技术白皮书 / 52-数据集卡 Template v1.0
第9章 偏倚、伦理与隐私(Bias/Ethics/Privacy)
I. 目的与范围(Purpose & Scope)
- 规范数据集的偏倚识别与缓解、伦理合规与隐私保护的字段、流程与发布口径,确保数据在获取—处理—标注—发布各阶段可审计、可追溯、可最小化暴露。
- 涉及路径量(到达时/相位)之样本,正文显式 gamma(ell) 与测度 d ell,数据侧记录 delta_form ∈ {general, factored};发布要求 p_dim = 1.0 并随附 check_dim_report.json。
II. 输入与依赖(Prerequisites & Inputs)
- 结构与契约:schema.json/contract.yaml(见第4章)已对齐 TARR,字段单位/量纲明确。
- 来源与血缘:provenance.yaml/lineage_graph.json(见第3章)完备,记录同意/许可与场景约束。
- Splits/Versioning/Freshness:split.yaml/split_manifest.json(见第6章)已确定,过期样本隔离。
- 计量与覆盖:与《误差预算卡》一致(cov_group/Σ、coverage ∈ {k, alpha, quantile})。
- 引用与版本:使用“卷名 + 版本 + 锚点(P/S/M/I)”,锚点直指率 ≥ 90%。
III. 偏倚识别(Bias Identification)
- 抽样偏倚:来源/场地/时间窗/设备覆盖不均;以分层计数与置信区间对比。
- 测量偏倚:δt_abs/Δτ_ch/σ_y(τ) 超阈或 n_eff 拟合系统性偏差;在 quality.flags 记录。
- 标注偏倚:审校一致性不足(κ < κ_min、MAE > τ_mae、路径 DTW/Hausdorff 过大)。
- 处理偏倚:清洗/归一化/筛选规则对亚群体产生不对称影响(以 slices 基于 slice_k 分析)。
偏倚量化最小集
bias_metrics:
sampling: { stratified_counts: true, ci_method: "wilson" }
measurement: { delta_t_abs_ns: true, delta_tau_ch_ns: true, allan_1s: true }
labeling: { kappa: true, mae: true, dtw: true }
processing: { slice_comparisons: ["low_snr","region_A","device_B"] }
IV. 偏倚缓解(Mitigation)
- 再加权/重采样:按分层权重或过采样/欠采样(记录 seed)。
- 口径修正:对测量偏差做校准映射或在区间中扩大 U = k·u_c。
- 审校增强:提高 k_rep 与仲裁(adjudication),对分歧样本复核。
- 切片公开:对高风险 slices 单列并在发布中限制为定性分析或标注 [Restricted]。
V. 伦理合规(Ethics Compliance)
- 同意与用途限制:consent_id、purpose_limit、retention_policy 与可撤回机制。
- 最小化原则:仅保留任务必要字段;避免存储可识别/敏感原文。
- 透明与可解释:在 docs/ethics.md 描述数据流、角色、审查与申诉渠道。
- 第三方数据:核验许可/版权与再分发条件,记录 license 与约束条款。
VI. 隐私与去标识化(Privacy & De-identification)
- 去标识化流程:哈希化/泛化/扰动/遮蔽;记录 deid_policy 与风险评估。
- 重识别风险:对罕见组合/长尾分布进行 k-匿名/l-多样/t-接近评估。
- 访问控制:按角色分域(只读/可导出/管理),审计所有写操作;导出严格带签名与校验和。
- 日志最小化:audit.jsonl 不落敏感原文,仅存哈希与必要元信息。
VII. 路径量统一口径(Normative Path Forms)
- 到达时:
T_arr = ( 1 / c_ref ) * ( ∫ n_eff d ell );或 T_arr = ( ∫ ( n_eff / c_ref ) d ell )。 - 相位:
Phi = ( 2π / λ_ref ) * ( ∫ n_eff d ell )。
正文显式路径与测度,数据侧记录 delta_form;路径数组 len(gamma_ell)=len(d_ell)=len(n_eff)≥2。
VIII. 质量门与完整性(Gates & Integrity)
- G1 Schema 完整:偏倚/伦理/隐私相关字段与文档存在;
- G2 引用合规:伦理/许可/隐私文档与锚点直指率 ≥ 90%;
- G3 路径规范:路径块齐备;
- G4 量纲闭合:I70-dim_check 通过;
- G5 新鲜度:clock_state="locked",过期样本隔离;
- G6 覆盖口径:偏倚评估区间与发布一致;
- G7 协方差一致:高风险 slices 的统计假设与误差卷一致,Σ 正定;
- G8 唯一性:record_id/checksum 唯一,lineage DAG 无环。
- 触发 S1–S5 即拒收或进入 [Restricted]。
IX. 机读策略(Machine-Readable Policies)
A. privacy_policy.yaml
version: "1.0.0"
deid:
techniques: ["hash","mask","generalize"]
k_anonymity: 10
l_diversity: 2
t_closeness: 0.2
access_control:
roles: { reader: ["get"], publisher: ["get","export"], admin: ["get","export","write"] }
retention:
policy_days: 365
B. bias_report.md(提纲)
# Bias Report
- Sampling coverage by strata with CIs
- Measurement bias (δt_abs, Δτ_ch, σ_y(τ), n_eff fit residuals)
- Labeling consistency (κ, MAE, DTW)
- Slices with significant deltas and mitigation plan
C. ethics.md(提纲)
# Ethics Statement
- Consent & purpose limitation
- Data minimization & de-identification
- Governance roles & escalation routes
- Third-party license & redistribution terms
X. 反例与修正(Anti-Patterns & Fixes)
- 反例:发布均值无区间→ 修正:补充 k/alpha/quantile 区间与收敛诊断。
- 反例:T_arr = ∫ n_eff / c_ref d ell(缺括号)→ 修正:括号化统一。
- 反例:无同意与用途限制记录 → 修正:补录 consent_id/purpose_limit 并在 manifest 标注。
- 反例:去标识化未评估 k-匿名 → 修正:最小目标 k≥10 且记录评估。
- 反例:高风险 slices 未隔离 → 修正:单列并按 [Restricted] 发布或仅定性呈现。
XI. 交叉引用(Cross-References)
- 结构与 Schema:见第4章;Splits/Versioning/Freshness:见第6章;质量门与完整性:见第7章;不确定度与协方差:见第8章。
- 《管线卡》:监控与告警(Ch.9)、产出与发布(Ch.12)。
- 《误差预算卡》:区间与阈值映射(Ch.8/Ch.9)。
XII. 执行勾选清单(Checklist)
- privacy_policy.yaml、bias_report.md、ethics.md 就绪并在 manifest 引用。
- 路径量显式 gamma/measure/delta_form;len(path) ≥ 2、Δell 合规;p_dim = 1.0。
- 偏倚指标计算完备(抽样/测量/标注/处理);高风险 slices 已提出缓解与发布策略。
- 覆盖与协方差口径与误差卷一致;/validate 通过 G1–G8;必要时进入 [Restricted]。
- 审计事件完整,许可/用途限制明确;引用与版本合规(锚点直指率 ≥ 90%)。
版权与许可(CC BY 4.0)
版权声明:除另有说明外,《能量丝理论》(含文本、图表、插图、符号与公式)的著作权由作者(“屠广林”先生)享有。
许可方式:本作品采用 Creative Commons 署名 4.0 国际许可协议(CC BY 4.0)进行许可;在注明作者与来源的前提下,允许为商业或非商业目的进行复制、转载、节选、改编与再分发。
署名格式(建议):作者:“屠广林”;作品:《能量丝理论》;来源:energyfilament.org;许可证:CC BY 4.0。
首次发布: 2025-11-11|当前版本:v5.1
协议链接:https://creativecommons.org/licenses/by/4.0/