目录 / 文档-技术白皮书 / 43-EFT.WP.Data.DatasetCards v1.0
I. 章节目的与范围
于公式;跨卷引用采用“卷名+版本+锚点”。 禁用中文固化隐私分类与最小化原则、合法性基础与同意管理、去标识化与再识别风险评估、访问控制与治理、区域合规映射、事件响应与审计要求;确保与数据契约、标签/本体、切分/分发、计量与不确定度口径一致。所有数学/符号表达使用反引号与括号,II. 术语与依赖
- 术语来源:通用术语遵循《EFT.WP.Core.Terms v1.0》,本章仅增量定义隐私与合规相关字段与约束。
- 依赖卷:数据契约/导出:《Core.DataSpec v1.0》;计量与量纲校核:《Core.Metrology v1.0》;切分/分发:第11章;标签/本体:第8章;不确定度与误差预算:第10章;引用与版本携带:《引用与交叉引用规范 v0.1》。
III. 字段与结构(规范性)
privacy:
policy: "no-PII" # no-PII | limited-PII | special-category
lawful_basis: ["consent","research"] # 适用的合法性基础(示例)
data_minimization: true
data_categories: ["telemetry","imagery","text"] # 具体类别
special_category_flags: [] # 如涉健康/生物识别等则列出
deidentification: # 去标识化策略
methods: ["hash-id","mask-location","binning-time"]
k_anonymity: 10
l_diversity: 2
dp_epsilon: null # 如采用差分隐私则给出
reidentification_risk: # 再识别风险评估
posture: "low" # low | medium | high
evidence: ["sampled-adversary-test","linkage-check"]
retention:
policy: "min-necessary" # 保存期策略
delete_after_days: 365
data_subject_rights:
access_export: true
rectification: true
erasure: true
objection: true
contact: "privacy@org.example"
ethics:
intended_use: ["academic","benchmark"] # 允许用途
prohibited_use: ["surveillance","biometric_identification"]
harm_mitigation:
bias_scan: ["class","region"]
human_review: true
safety_precedence: true
fairness:
axes: ["class","region"]
gap_metric: "abs_diff"
threshold: 0.05
compliance:
regions: ["EU-GDPR","US-CCPA","CN-DSL"] # 示例映射;需与实际一致
data_transfer:
mechanisms: ["standard-clauses"] # 跨境传输机制
access_control:
roles: ["owner","maintainer","reader"]
enforcement: ["signed-url","token","ip-allowlist"]
incident_response:
contact: "security@org.example"
sla_hours: 72
audits:
schedule: "annual"
artifacts: ["pii-scan.txt","dpiA.md"]
see:
- "EFT.WP.Core.DataSpec v1.0:EXPORT"
- "EFT.WP.Core.Metrology v1.0:check_dim"
(privacy 与 ethics 为条件必填:涉及 PII/敏感信息或需伦理披露时必须存在;导出引用在 export_manifest.references[] 中体现。)
IV. 数据分类与最小化
- 最小化原则:仅收集达成研究/工程目标所必需的数据;在 data_categories 中列出并在 provenance 描述采集理由。
- 特殊类别:如涉及生物识别、健康、未成年人等,需在 special_category_flags[] 声明并提供额外控制(更严格的访问与保留策略)。
- 与标签/本体一致:若标签含潜在敏感语义,需在 labels.guidelines.precedence 中启用 safety-first 与 no-PII。
V. 合法性基础与同意管理
- 在 lawful_basis[] 写明合法性路径(如 consent、legitimate_interest、research);
- 若采用同意,需在卡片记录同意范围/可撤回机制/时间戳,并在 distribution.regional_compliance[] 限定分发区域;撤回需可追溯至 lineage。
VI. 去标识化与再识别风险
- 方法:hash-id、地理/时间模糊化(如 binning-time)、截断精度、扰动/合成数据;如采用差分隐私,记录 dp_epsilon 与应用范围。
- 评估:提供抽样攻击/链接攻击证据;reidentification_risk.posture 与审计工件对应。
- 影响:对下游任务的影响(如 accuracy 降幅)在第12章报告,必要时进入 uncertainty.components[]。
VII. 访问控制与治理
- 角色与机制:在 access_control.roles/enforcement 固化;访问日志与令牌失效策略作为导出工件列出。
- 最小权限:默认只读镜像,写入仅限 owner/maintainer;对外包/众包标注需隔离并最小化样本暴露。
VIII. 区域合规映射与跨境传输
- 在 compliance.regions[] 列出适用框架并与 distribution.regional_compliance[] 一致;
- 跨境传输机制(如标准合同条款)需在导出清单中提供模板或引用编号。
IX. 事件响应与审计
- 事件响应:incident_response.contact 与 sla_hours 固化(例如 72 小时通知窗口);
- 周期审计:audits.schedule(如年度)与审计工件(DPIA、PII 扫描、访问日志)纳入 export_manifest.artifacts[] 并附 sha256。
X. 与切分/分发、计量/不确定度的衔接
- 切分/分发:对含敏感信息的数据,splits 不得造成泄漏;在 distribution.regional_compliance[] 与镜像列表中反映区域限制。
- 计量/不确定度:隐私处理可能引入统计偏差或噪声,需在 uncertainty.components[] 以系统或随机成分计入;所有数值/指标须通过 check_dim。
XI. 机器可读片段(可直接嵌入卡片)
privacy:
policy: "limited-PII"
lawful_basis: ["consent"]
data_minimization: true
data_categories: ["audio","text"]
deidentification:
methods: ["hash-id","clip-duration","additive-noise"]
k_anonymity: 20
reidentification_risk: {posture:"low", evidence:["sampled-adversary-test"]}
retention: {policy:"min-necessary", delete_after_days:180}
data_subject_rights:
access_export: true
rectification: true
erasure: true
contact: "privacy@org.example"
ethics:
intended_use: ["academic","benchmark"]
prohibited_use: ["surveillance"]
harm_mitigation: {bias_scan:["class","region"], human_review:true, safety_precedence:true}
fairness: {axes:["class","region"], gap_metric:"abs_diff", threshold:0.05}
compliance:
regions: ["EU-GDPR"]
data_transfer: {mechanisms:["standard-clauses"]}
access_control:
roles: ["owner","maintainer","reader"]
enforcement: ["signed-url","token"]
incident_response: {contact:"security@org.example", sla_hours:72}
audits: {schedule:"annual", artifacts:["pii-scan.txt","dpia.md"]}
see:
- "EFT.WP.Core.DataSpec v1.0:EXPORT"
- "EFT.WP.Core.Metrology v1.0:check_dim"
(引用锚点与导出清单 references[] 的写法保持一致,携带卷名+版本+锚点。)
XII. 与导出清单的耦合(规范性)
export_manifest:
artifacts:
- {path:"compliance/pii-scan.txt", sha256:"..."}
- {path:"compliance/dpia.md", sha256:"..."}
references:
- "EFT.WP.Core.DataSpec v1.0:EXPORT"
- "EFT.WP.Core.Metrology v1.0:check_dim"
(工件必须可校验;禁止短码/别名;必须带版本与锚点。)
XIII. 本章合规自检
- 若数据涉 PII/敏感信息,privacy 与 ethics 已启用并记录合法性基础、去标识化方法与再识别风险证据。
- distribution.regional_compliance[] 与 compliance.regions[] 一致;跨境传输机制在导出清单中有记录与工件。
- 访问控制、事件响应、审计计划与工件已登记且可校验;冻结切分不产生隐私泄漏。
- 隐私处理引入的偏差/噪声已纳入第10章的不确定度合成;所有数值与单位通过 check_dim。
版权与许可(CC BY 4.0)
版权声明:除另有说明外,《能量丝理论》(含文本、图表、插图、符号与公式)的著作权由作者(“屠广林”先生)享有。
许可方式:本作品采用 Creative Commons 署名 4.0 国际许可协议(CC BY 4.0)进行许可;在注明作者与来源的前提下,允许为商业或非商业目的进行复制、转载、节选、改编与再分发。
署名格式(建议):作者:“屠广林”;作品:《能量丝理论》;来源:energyfilament.org;许可证:CC BY 4.0。
首次发布: 2025-11-11|当前版本:v5.1
协议链接:https://creativecommons.org/licenses/by/4.0/