43-EFT.WP.Data.DatasetCards v1.0 | 第13章隐私、伦理与合规 | 能量丝理论

第13章隐私、伦理与合规

I. 章节目的与范围

于公式；跨卷引用采用“卷名+版本+锚点”。 禁用中文固化隐私分类与最小化原则、合法性基础与同意管理、去标识化与再识别风险评估、访问控制与治理、区域合规映射、事件响应与审计要求；确保与数据契约、标签/本体、切分/分发、计量与不确定度口径一致。所有数学/符号表达使用反引号与括号，

II. 术语与依赖

术语来源：通用术语遵循《EFT.WP.Core.Terms v1.0》，本章仅增量定义隐私与合规相关字段与约束。
依赖卷：数据契约/导出：《Core.DataSpec v1.0》；计量与量纲校核：《Core.Metrology v1.0》；切分/分发：第11章；标签/本体：第8章；不确定度与误差预算：第10章；引用与版本携带：《引用与交叉引用规范 v0.1》。

III. 字段与结构（规范性）

privacy:

policy: "no-PII" # no-PII | limited-PII | special-category

lawful_basis: ["consent","research"] # 适用的合法性基础（示例）

data_minimization: true

data_categories: ["telemetry","imagery","text"] # 具体类别

special_category_flags: [] # 如涉健康/生物识别等则列出

deidentification: # 去标识化策略

methods: ["hash-id","mask-location","binning-time"]

k_anonymity: 10

l_diversity: 2

dp_epsilon: null # 如采用差分隐私则给出

reidentification_risk: # 再识别风险评估

posture: "low" # low | medium | high

evidence: ["sampled-adversary-test","linkage-check"]

retention:

policy: "min-necessary" # 保存期策略

delete_after_days: 365

data_subject_rights:

access_export: true

rectification: true

erasure: true

objection: true

contact: "privacy@org.example"

ethics:

intended_use: ["academic","benchmark"] # 允许用途

prohibited_use: ["surveillance","biometric_identification"]

harm_mitigation:

bias_scan: ["class","region"]

human_review: true

safety_precedence: true

fairness:

axes: ["class","region"]

gap_metric: "abs_diff"

threshold: 0.05

compliance:

regions: ["EU-GDPR","US-CCPA","CN-DSL"] # 示例映射；需与实际一致

data_transfer:

mechanisms: ["standard-clauses"] # 跨境传输机制

access_control:

roles: ["owner","maintainer","reader"]

enforcement: ["signed-url","token","ip-allowlist"]

incident_response:

contact: "security@org.example"

sla_hours: 72

audits:

schedule: "annual"

artifacts: ["pii-scan.txt","dpiA.md"]

see:

- "EFT.WP.Core.DataSpec v1.0:EXPORT"

- "EFT.WP.Core.Metrology v1.0:check_dim"

（privacy 与 ethics 为条件必填：涉及 PII/敏感信息或需伦理披露时必须存在；导出引用在 export_manifest.references[] 中体现。）

IV. 数据分类与最小化

最小化原则：仅收集达成研究/工程目标所必需的数据；在 data_categories 中列出并在 provenance 描述采集理由。
特殊类别：如涉及生物识别、健康、未成年人等，需在 special_category_flags[] 声明并提供额外控制（更严格的访问与保留策略）。
与标签/本体一致：若标签含潜在敏感语义，需在 labels.guidelines.precedence 中启用 safety-first 与 no-PII。

V. 合法性基础与同意管理

在 lawful_basis[] 写明合法性路径（如 consent、legitimate_interest、research）；
若采用同意，需在卡片记录同意范围/可撤回机制/时间戳，并在 distribution.regional_compliance[] 限定分发区域；撤回需可追溯至 lineage。

VI. 去标识化与再识别风险

方法：hash-id、地理/时间模糊化（如 binning-time）、截断精度、扰动/合成数据；如采用差分隐私，记录 dp_epsilon 与应用范围。
评估：提供抽样攻击/链接攻击证据；reidentification_risk.posture 与审计工件对应。
影响：对下游任务的影响（如 accuracy 降幅）在第12章报告，必要时进入 uncertainty.components[]。

VII. 访问控制与治理

角色与机制：在 access_control.roles/enforcement 固化；访问日志与令牌失效策略作为导出工件列出。
最小权限：默认只读镜像，写入仅限 owner/maintainer；对外包/众包标注需隔离并最小化样本暴露。

VIII. 区域合规映射与跨境传输

在 compliance.regions[] 列出适用框架并与 distribution.regional_compliance[] 一致；
跨境传输机制（如标准合同条款）需在导出清单中提供模板或引用编号。

IX. 事件响应与审计

事件响应：incident_response.contact 与 sla_hours 固化（例如 72 小时通知窗口）；
周期审计：audits.schedule（如年度）与审计工件（DPIA、PII 扫描、访问日志）纳入 export_manifest.artifacts[] 并附 sha256。

X. 与切分/分发、计量/不确定度的衔接

切分/分发：对含敏感信息的数据，splits 不得造成泄漏；在 distribution.regional_compliance[] 与镜像列表中反映区域限制。
计量/不确定度：隐私处理可能引入统计偏差或噪声，需在 uncertainty.components[] 以系统或随机成分计入；所有数值/指标须通过 check_dim。

XI. 机器可读片段（可直接嵌入卡片）

privacy:

policy: "limited-PII"

lawful_basis: ["consent"]

data_minimization: true

data_categories: ["audio","text"]

deidentification:

methods: ["hash-id","clip-duration","additive-noise"]

k_anonymity: 20

reidentification_risk: {posture:"low", evidence:["sampled-adversary-test"]}

retention: {policy:"min-necessary", delete_after_days:180}

data_subject_rights:

access_export: true

rectification: true

erasure: true

contact: "privacy@org.example"

ethics:

intended_use: ["academic","benchmark"]

prohibited_use: ["surveillance"]

harm_mitigation: {bias_scan:["class","region"], human_review:true, safety_precedence:true}

fairness: {axes:["class","region"], gap_metric:"abs_diff", threshold:0.05}

compliance:

regions: ["EU-GDPR"]

data_transfer: {mechanisms:["standard-clauses"]}

access_control:

roles: ["owner","maintainer","reader"]

enforcement: ["signed-url","token"]

incident_response: {contact:"security@org.example", sla_hours:72}

audits: {schedule:"annual", artifacts:["pii-scan.txt","dpia.md"]}

see:

- "EFT.WP.Core.DataSpec v1.0:EXPORT"

- "EFT.WP.Core.Metrology v1.0:check_dim"

（引用锚点与导出清单 references[] 的写法保持一致，携带卷名+版本+锚点。）

XII. 与导出清单的耦合（规范性）

export_manifest:

artifacts:

- {path:"compliance/pii-scan.txt", sha256:"..."}

- {path:"compliance/dpia.md", sha256:"..."}

references:

- "EFT.WP.Core.DataSpec v1.0:EXPORT"

- "EFT.WP.Core.Metrology v1.0:check_dim"

（工件必须可校验；禁止短码/别名；必须带版本与锚点。）

XIII. 本章合规自检

若数据涉 PII/敏感信息，privacy 与 ethics 已启用并记录合法性基础、去标识化方法与再识别风险证据。
distribution.regional_compliance[] 与 compliance.regions[] 一致；跨境传输机制在导出清单中有记录与工件。
访问控制、事件响应、审计计划与工件已登记且可校验；冻结切分不产生隐私泄漏。
隐私处理引入的偏差/噪声已纳入第10章的不确定度合成；所有数值与单位通过 check_dim。