目录文档-技术白皮书06-EFT.WP.Core.DataSpec v1.0

第9章 隐私、安全与治理


I. 范围与目标


II. 术语、符号与依赖


III. 治理公设(P69-*)


IV. 数据分级与字段字典约束(S69-1)

  1. 分级矩阵(示例):
    • P3 直接标识符:name, phone, email, gov_id, precise_location (lon,lat with < 100 m), biometric。
    • P2 间接标识符:device_id, cookie, ip, coarse_location (grid ≥ 1 km), timestamp with high precision。
    • P1 业务敏感非标识:financial_metric, health_indicator (aggregated)。
    • P0 非敏感:environmental_sensor, public_reference。
  2. 字段词条新增键:privacy.pii_level、privacy.sensitivity_note、governance.owner、governance.steward、governance.policy_ref。
  3. 约束:P3 字段必须具备 mask_strategy 与最小化映射;ts 精度需与 pii_level 匹配(如 P3 至少降采样到 Delta_t >= 1 min,必要时抹除 seconds)。

V. 访问控制与审计(S69-2)

  1. 访问准入:
    • RBAC 粒度:role ∈ {"producer","consumer","steward","admin"}。
    • ABAC 条件:env ∈ {"prod","staging"}、purpose ∈ {"ops","research","billing"}、pii_level_max。
  2. 决策函数:
    allow(uid, action, resource) = evaluate(policy, {role, env, purpose, pii_level(resource)})。
  3. 审计最小字段集:
    ts, uid, role, action, resource, pii_level, purpose, decision, hash_sha256(manifest), signature。
  4. 与《Core.Errors》对齐:访问拒绝或解密失败应通过 log_event(E.*,"ERROR",context) 且附 traceback_summary。

VI. 加密与密钥管理(S69-3)

  1. 传输:TLS >= v1.2。
  2. 静态:AEAD(K_enc, IV, aad=manifest_id);文件级或列级加密按 pii_level 差异化应用。
  3. 密钥:
    • 生成与轮换:K_enc <- rotate(K_enc, t_rotate);高敏字段至少 t_rotate <= 30 d。
    • 封装:K_wrap = KMS_wrap(K_enc),只存 K_wrap 与 aad;严禁与密文同库同表明文存 K_enc。
  4. 校验:每次解密需校验 AEAD 标签并记录失败率基线。

VII. 去标识化与最小化(S69-4)

  1. k-匿名性:
    划分等价类 E_j,要求 min_j |E_j| >= k。
  2. l-多样性:
    对敏感属性 S,distinct(S in E_j) >= l。
  3. t-接近性(以分布距离度量):
    distance( P_S(E_j), P_S(global) ) <= t,建议 distance = JSD 或 W1 / IQR_global。
  4. 常用策略:
    • 泛化:age -> age_band,lon,lat -> geohash(r)。
    • 抹除:drop(P3)。
    • 百分位裁剪:对尾部值应用 winsorize(p_low, p_high)。
    • 绑定质量:去标识化前后必须重算 q_score 与 drift,并在 manifest.privacy.impact 记录差异。

VIII. 差分隐私(S69-5)

  1. 机制定义((epsilon, delta)-DP):
    对任意相邻数据集 D, D' 与任意输出集合 S,Pr[M(D) ∈ S] <= exp(epsilon) * Pr[M(D') ∈ S] + delta。
  2. 灵敏度与噪声:
    • 拉普拉斯机制(计数/和):noise ~ Laplace( b ),b = sensitivity / epsilon。
    • 高斯机制(均值/比例):noise ~ Normal( 0, sigma^2 ),sigma 由 (epsilon, delta) 与灵敏度给定。
  3. 预算账本:
    epsilon_total = sum epsilon_i(顺序合成上界),以 manifest.privacy.epsilon_ledger 管理;超限禁止再发布。
  4. 输出水位:
    所有 DP 结果应标注 epsilon_used、delta、sensitivity 与采样规模 N_eff。

IX. 遮蔽、散列与代币化(S69-6)

  1. mask_fields(ds, fields, mode) 推荐模式:
    • "hash":hash_sha256( salt || value ),salt 至少 128 bit 且定期轮换;避免可逆碰撞域。
    • "token":保留一对一映射的随机代币 token_id,映射表独立加密存储,访问仅限 admin。
    • "redact":以 null 或 m=0 表示缺失,禁止用哑值。
    • "generalize":bin(field, bins) 或 quantile_bucket(q)。
    • "noise":对数值字段加入零均值噪声,记录 sigma 与适用范围。
  2. 口径统一:遮蔽后的字段需更新 unit/dim 与 check_dim(expr),防止语义漂移。

X. 留存、冻结与删除(S69-7)

  1. 留存契约:enforce_retention(ds, ttl_days) 必须验证 legal_hold;冻结数据使用 freeze_release(tag)。
  2. 删除流程(Mx-5):
    • 计算与记录 hash_sha256 指纹清单;
    • 去关联 token 映射与 K_enc;
    • 安全擦除主副本与索引(包括 idx_k);
    • 记录 deletion_log = {ts, uid, resources, method, hash_before, signature};
    • 在 manifest.retention 写入完成状态。
  3. 还原边界:P3 字段删除后不允许通过 Trace 或 aux data 复原等价标识。

XI. 治理角色与职责(S69-8)


XII. 跨卷锚点的隐私注意事项(S69-9)


XIII. Manifest 扩展字段(S69-10)


XIV. 实现绑定与接口约定(I60 8 对齐)

  1. anonymize(ds:any, policy:dict) -> any
    • policy = {k, l, t, strategies: {field -> {mode, params}}, dp?: {epsilon, delta, method}}。
    • 返回带 manifest.privacy 增补的 ds',并产出 impact 报告。
  2. mask_fields(ds:any, fields:list[str], mode:str="hash") -> any
    mode ∈ {"hash","token","redact","generalize","noise"},更新字段词条与 pii_level 降级。
  3. enforce_retention(ds:any, ttl_days:int) -> any
    验证 legal_hold,执行 Mx-5,产出 deletion_log。
  4. 合同化断言(与 assert_contract 结合):
    k_anonymity_ok >= k_min,epsilon_total <= budget,pii_level(field) <= pii_level_max(role),rotate(K, t) <= t_rotate_max。

XV. 度量与门控阈值(建议)


XVI. 事件响应与复盘(S69-11)

  1. 分级:Info(策略漂移)、Warn(潜在泄露迹象)、Error(确认泄露或策略破坏)。
  2. 响应流程:
    • 立刻 freeze_release(tag) 并吊销相关 K_enc;
    • 切换到去标识化视图与只读访问;
    • 生成 incident_report = {ts, scope, fields, pii_level, blast_radius, keys_revoked, epsilon_state};
    • 审计与补救:更新 policy、补写测试到 assert_contract;
    • 回归验证:在 D_ref 与 D_new 上复测质量与隐私影响。

XVII. 与前后章的接口关系


XVIII. 执行摘要

任何进入生产的 D 必须:

版权与许可(CC BY 4.0)

版权声明:除另有说明外,《能量丝理论》(含文本、图表、插图、符号与公式)的著作权由作者(“屠广林”先生)享有。
许可方式:本作品采用 Creative Commons 署名 4.0 国际许可协议(CC BY 4.0)进行许可;在注明作者与来源的前提下,允许为商业或非商业目的进行复制、转载、节选、改编与再分发。
署名格式(建议):作者:“屠广林”;作品:《能量丝理论》;来源:energyfilament.org;许可证:CC BY 4.0。

首次发布: 2025-11-11|当前版本:v5.1
协议链接:https://creativecommons.org/licenses/by/4.0/