06-EFT.WP.Core.DataSpec v1.0 | 第9章隐私、安全与治理 | 能量丝理论

第9章隐私、安全与治理

I. 范围与目标

定义数据分级、访问控制、加密、去标识化与合规审计的统一口径，形成可执行治理流程与门控准则。
将 I60 8 anonymize/mask_fields/enforce_retention 与 manifest 扩展字段绑定，实现端到端“采集→加工→发布→归档/删除”的隐私安全闭环。
面向跨卷锚点（如 T_arr、gamma(ell)、n_eff(x,t) 等）给出专项治理要求，确保性能与可追溯性不牺牲隐私最小化原则。

II. 术语、符号与依赖

数据分级与标签：pii_level ∈ {"P0","P1","P2","P3"}，gov_tag ∈ {"internal","confidential","restricted","public"}。
身份与访问：uid（主体标识），role（角色），policy（访问策略），ABAC（属性访问控制），RBAC（角色访问控制）。
密钥与加密：K_enc（数据密钥），K_wrap（密钥加包），IV（初始向量），AEAD（带鉴别加密），rotate(K, t)（按时间窗口轮换）。
去标识化与差分隐私：k（k-anonymity），l（l-diversity），t（t-closeness），epsilon、delta（差分隐私预算）。
留存与删除：ttl_days，legal_hold ∈ {0,1}，deletion_log。
证据与审计：hash_sha256(blob)，signature，Trace = [source -> method -> artifact]。
Manifest 扩展：manifest.privacy，manifest.governance，manifest.cryptography，manifest.retention。

III. 治理公设（P69-*)

P69-1 最小化公设：仅采集与保留实现既定 S/P/M/I 目标所必需的字段，冗余标识符以 m=0 或衍生视图剔除。
P69-2 分级先行公设：所有 field_i 必须在模式层声明 pii_level 与 gov_tag，未分级字段不得进入生产。
P69-3 明确身份公设：一切读写操作必须在 uid, role, policy 环下执行并可审计。
P69-4 加密恒在公设：传输与静态存储均采用 AEAD，密钥 K_enc 与数据物理分离，K_enc 通过 K_wrap 管理并按策略轮换。
P69-5 可撤回与可删除公设：ttl_days 到期或撤回请求到达时，必须触发不可逆删除并记录 deletion_log 与 hash_sha256 见证。
P69-6 双口径一致公设（到达时）：任何涉及 T_arr 的发布，需证明去标识化前后 delta_form 不增大到超阈（不破坏科学可比性）。

IV. 数据分级与字段字典约束（S69-1）

分级矩阵（示例）：
- P3 直接标识符：name, phone, email, gov_id, precise_location (lon,lat with < 100 m), biometric。
- P2 间接标识符：device_id, cookie, ip, coarse_location (grid ≥ 1 km), timestamp with high precision。
- P1 业务敏感非标识：financial_metric, health_indicator (aggregated)。
- P0 非敏感：environmental_sensor, public_reference。
字段词条新增键：privacy.pii_level、privacy.sensitivity_note、governance.owner、governance.steward、governance.policy_ref。
约束：P3 字段必须具备 mask_strategy 与最小化映射；ts 精度需与 pii_level 匹配（如 P3 至少降采样到 Delta_t >= 1 min，必要时抹除 seconds）。

V. 访问控制与审计（S69-2）

访问准入：
- RBAC 粒度：role ∈ {"producer","consumer","steward","admin"}。
- ABAC 条件：env ∈ {"prod","staging"}、purpose ∈ {"ops","research","billing"}、pii_level_max。
决策函数：
allow(uid, action, resource) = evaluate(policy, {role, env, purpose, pii_level(resource)})。
审计最小字段集：
ts, uid, role, action, resource, pii_level, purpose, decision, hash_sha256(manifest), signature。
与《Core.Errors》对齐：访问拒绝或解密失败应通过 log_event(E.*,"ERROR",context) 且附 traceback_summary。

VI. 加密与密钥管理（S69-3）

传输：TLS >= v1.2。
静态：AEAD(K_enc, IV, aad=manifest_id)；文件级或列级加密按 pii_level 差异化应用。
密钥：
- 生成与轮换：K_enc <- rotate(K_enc, t_rotate)；高敏字段至少 t_rotate <= 30 d。
- 封装：K_wrap = KMS_wrap(K_enc)，只存 K_wrap 与 aad；严禁与密文同库同表明文存 K_enc。
校验：每次解密需校验 AEAD 标签并记录失败率基线。

VII. 去标识化与最小化（S69-4）

k-匿名性：
划分等价类 E_j，要求 min_j |E_j| >= k。
l-多样性：
对敏感属性 S，distinct(S in E_j) >= l。
t-接近性（以分布距离度量）：
distance( P_S(E_j), P_S(global) ) <= t，建议 distance = JSD 或 W1 / IQR_global。
常用策略：
- 泛化：age -> age_band，lon,lat -> geohash(r)。
- 抹除：drop(P3)。
- 百分位裁剪：对尾部值应用 winsorize(p_low, p_high)。
- 绑定质量：去标识化前后必须重算 q_score 与 drift，并在 manifest.privacy.impact 记录差异。

VIII. 差分隐私（S69-5）

机制定义（(epsilon, delta)-DP）：
对任意相邻数据集 D, D' 与任意输出集合 S，Pr[M(D) ∈ S] <= exp(epsilon) * Pr[M(D') ∈ S] + delta。
灵敏度与噪声：
- 拉普拉斯机制（计数/和）：noise ~ Laplace( b )，b = sensitivity / epsilon。
- 高斯机制（均值/比例）：noise ~ Normal( 0, sigma^2 )，sigma 由 (epsilon, delta) 与灵敏度给定。
预算账本：
epsilon_total = sum epsilon_i（顺序合成上界），以 manifest.privacy.epsilon_ledger 管理；超限禁止再发布。
输出水位：
所有 DP 结果应标注 epsilon_used、delta、sensitivity 与采样规模 N_eff。

IX. 遮蔽、散列与代币化（S69-6）

mask_fields(ds, fields, mode) 推荐模式：
- "hash"：hash_sha256( salt || value )，salt 至少 128 bit 且定期轮换；避免可逆碰撞域。
- "token"：保留一对一映射的随机代币 token_id，映射表独立加密存储，访问仅限 admin。
- "redact"：以 null 或 m=0 表示缺失，禁止用哑值。
- "generalize"：bin(field, bins) 或 quantile_bucket(q)。
- "noise"：对数值字段加入零均值噪声，记录 sigma 与适用范围。
口径统一：遮蔽后的字段需更新 unit/dim 与 check_dim(expr)，防止语义漂移。

X. 留存、冻结与删除（S69-7）

留存契约：enforce_retention(ds, ttl_days) 必须验证 legal_hold；冻结数据使用 freeze_release(tag)。
删除流程（Mx-5）：
- 计算与记录 hash_sha256 指纹清单；
- 去关联 token 映射与 K_enc；
- 安全擦除主副本与索引（包括 idx_k）；
- 记录 deletion_log = {ts, uid, resources, method, hash_before, signature}；
- 在 manifest.retention 写入完成状态。
还原边界：P3 字段删除后不允许通过 Trace 或 aux data 复原等价标识。

XI. 治理角色与职责（S69-8）

owner：定义目的、批准采集与留存策略。
steward：维护模式、分级、manifest 与质量门控。
producer：执行采集、遮蔽与加密，实现 I60 8 接口。
consumer：基于最小权限访问衍生视图。
auditor：定期审计 policy、日志与 epsilon_ledger，出具合规报告。

XII. 跨卷锚点的隐私注意事项（S69-9）

路径数据 gamma(ell) 与 pid 属 P2 或更高，发布时需至少 geohash(r>=6) 泛化或对 ell 稀疏化。
T_arr 的发布应优先以区间与统计量形式（median, IQR, RMSE）而非逐记录明细；若必须明细，应用 W1 保真约束下的噪声注入并记录 epsilon_used。
任一处理不得增大 delta_form 超过 tol_Tarr，否则回退或改用聚合发布。

XIII. Manifest 扩展字段（S69-10）

manifest.privacy = {pii_map, mask_strategy, epsilon_ledger, dp_method, sensitivity_ref, impact}。
manifest.governance = {owner, steward, policy_ref, approvals, audit_log_ref}。
manifest.cryptography = {enc: "AEAD", key_ref, wrap_ref, rotate_days, aad}。
manifest.retention = {ttl_days, legal_hold, frozen_tags, deletion_log_ref}。
manifest.access = {rbac_roles, abac_attrs, pii_level_max}。

XIV. 实现绑定与接口约定（I60 8 对齐）

anonymize(ds:any, policy:dict) -> any
- policy = {k, l, t, strategies: {field -> {mode, params}}, dp?: {epsilon, delta, method}}。
- 返回带 manifest.privacy 增补的 ds'，并产出 impact 报告。
mask_fields(ds:any, fields:list[str], mode:str="hash") -> any
mode ∈ {"hash","token","redact","generalize","noise"}，更新字段词条与 pii_level 降级。
enforce_retention(ds:any, ttl_days:int) -> any
验证 legal_hold，执行 Mx-5，产出 deletion_log。
合同化断言（与 assert_contract 结合）：
k_anonymity_ok >= k_min，epsilon_total <= budget，pii_level(field) <= pii_level_max(role)，rotate(K, t) <= t_rotate_max。

XV. 度量与门控阈值（建议）

去标识化充分性：min_j |E_j| >= k_min（默认 k_min=10），l >= 2，t <= 0.2（以 JSD_norm 计）。
差分隐私预算：epsilon_total <= 3.0（单主体年度上限），delta <= 1e-6。
加密运行：解密失败率 < 1e-6；密钥过期率 = 0。
访问策略：拒绝率异常升高（> p95_ref * 1.5）触发审计。

XVI. 事件响应与复盘（S69-11）

分级：Info（策略漂移）、Warn（潜在泄露迹象）、Error（确认泄露或策略破坏）。
响应流程：
- 立刻 freeze_release(tag) 并吊销相关 K_enc；
- 切换到去标识化视图与只读访问；
- 生成 incident_report = {ts, scope, fields, pii_level, blast_radius, keys_revoked, epsilon_state}；
- 审计与补救：更新 policy、补写测试到 assert_contract；
- 回归验证：在 D_ref 与 D_new 上复测质量与隐私影响。

XVII. 与前后章的接口关系

与第6章：索引对高分级字段采用脱敏键（如 token_id），禁建可逆联合索引。
与第7章：任何影响隐私口径的模式变更需 major+1，并更新 manifest.privacy 与迁移脚本。
与第8章：隐私处理前后需重算 q_score 与 drift，避免过度噪声损害可用性。

XVIII. 执行摘要

任何进入生产的 D 必须：

完成 pii_level/gov_tag 分级与最小化；
落实 AEAD 加密与密钥轮换；
通过 anonymize/mask_fields 与契约断言；
建立 retention 与 deletion_log；
在 manifest 中留存完整治理元数据与审计线。