目录 / 文档-技术白皮书 / 06-EFT.WP.Core.DataSpec v1.0
I. 范围与目标
- 定义数据分级、访问控制、加密、去标识化与合规审计的统一口径,形成可执行治理流程与门控准则。
- 将 I60 8 anonymize/mask_fields/enforce_retention 与 manifest 扩展字段绑定,实现端到端“采集→加工→发布→归档/删除”的隐私安全闭环。
- 面向跨卷锚点(如 T_arr、gamma(ell)、n_eff(x,t) 等)给出专项治理要求,确保性能与可追溯性不牺牲隐私最小化原则。
II. 术语、符号与依赖
- 数据分级与标签:pii_level ∈ {"P0","P1","P2","P3"},gov_tag ∈ {"internal","confidential","restricted","public"}。
- 身份与访问:uid(主体标识),role(角色),policy(访问策略),ABAC(属性访问控制),RBAC(角色访问控制)。
- 密钥与加密:K_enc(数据密钥),K_wrap(密钥加包),IV(初始向量),AEAD(带鉴别加密),rotate(K, t)(按时间窗口轮换)。
- 去标识化与差分隐私:k(k-anonymity),l(l-diversity),t(t-closeness),epsilon、delta(差分隐私预算)。
- 留存与删除:ttl_days,legal_hold ∈ {0,1},deletion_log。
- 证据与审计:hash_sha256(blob),signature,Trace = [source -> method -> artifact]。
- Manifest 扩展:manifest.privacy,manifest.governance,manifest.cryptography,manifest.retention。
III. 治理公设(P69-*)
- P69-1 最小化公设:仅采集与保留实现既定 S/P/M/I 目标所必需的字段,冗余标识符以 m=0 或衍生视图剔除。
- P69-2 分级先行公设:所有 field_i 必须在模式层声明 pii_level 与 gov_tag,未分级字段不得进入生产。
- P69-3 明确身份公设:一切读写操作必须在 uid, role, policy 环下执行并可审计。
- P69-4 加密恒在公设:传输与静态存储均采用 AEAD,密钥 K_enc 与数据物理分离,K_enc 通过 K_wrap 管理并按策略轮换。
- P69-5 可撤回与可删除公设:ttl_days 到期或撤回请求到达时,必须触发不可逆删除并记录 deletion_log 与 hash_sha256 见证。
- P69-6 双口径一致公设(到达时):任何涉及 T_arr 的发布,需证明去标识化前后 delta_form 不增大到超阈(不破坏科学可比性)。
IV. 数据分级与字段字典约束(S69-1)
- 分级矩阵(示例):
- P3 直接标识符:name, phone, email, gov_id, precise_location (lon,lat with < 100 m), biometric。
- P2 间接标识符:device_id, cookie, ip, coarse_location (grid ≥ 1 km), timestamp with high precision。
- P1 业务敏感非标识:financial_metric, health_indicator (aggregated)。
- P0 非敏感:environmental_sensor, public_reference。
- 字段词条新增键:privacy.pii_level、privacy.sensitivity_note、governance.owner、governance.steward、governance.policy_ref。
- 约束:P3 字段必须具备 mask_strategy 与最小化映射;ts 精度需与 pii_level 匹配(如 P3 至少降采样到 Delta_t >= 1 min,必要时抹除 seconds)。
V. 访问控制与审计(S69-2)
- 访问准入:
- RBAC 粒度:role ∈ {"producer","consumer","steward","admin"}。
- ABAC 条件:env ∈ {"prod","staging"}、purpose ∈ {"ops","research","billing"}、pii_level_max。
- 决策函数:
allow(uid, action, resource) = evaluate(policy, {role, env, purpose, pii_level(resource)})。 - 审计最小字段集:
ts, uid, role, action, resource, pii_level, purpose, decision, hash_sha256(manifest), signature。 - 与《Core.Errors》对齐:访问拒绝或解密失败应通过 log_event(E.*,"ERROR",context) 且附 traceback_summary。
VI. 加密与密钥管理(S69-3)
- 传输:TLS >= v1.2。
- 静态:AEAD(K_enc, IV, aad=manifest_id);文件级或列级加密按 pii_level 差异化应用。
- 密钥:
- 生成与轮换:K_enc <- rotate(K_enc, t_rotate);高敏字段至少 t_rotate <= 30 d。
- 封装:K_wrap = KMS_wrap(K_enc),只存 K_wrap 与 aad;严禁与密文同库同表明文存 K_enc。
- 校验:每次解密需校验 AEAD 标签并记录失败率基线。
VII. 去标识化与最小化(S69-4)
- k-匿名性:
划分等价类 E_j,要求 min_j |E_j| >= k。 - l-多样性:
对敏感属性 S,distinct(S in E_j) >= l。 - t-接近性(以分布距离度量):
distance( P_S(E_j), P_S(global) ) <= t,建议 distance = JSD 或 W1 / IQR_global。 - 常用策略:
- 泛化:age -> age_band,lon,lat -> geohash(r)。
- 抹除:drop(P3)。
- 百分位裁剪:对尾部值应用 winsorize(p_low, p_high)。
- 绑定质量:去标识化前后必须重算 q_score 与 drift,并在 manifest.privacy.impact 记录差异。
VIII. 差分隐私(S69-5)
- 机制定义((epsilon, delta)-DP):
对任意相邻数据集 D, D' 与任意输出集合 S,Pr[M(D) ∈ S] <= exp(epsilon) * Pr[M(D') ∈ S] + delta。 - 灵敏度与噪声:
- 拉普拉斯机制(计数/和):noise ~ Laplace( b ),b = sensitivity / epsilon。
- 高斯机制(均值/比例):noise ~ Normal( 0, sigma^2 ),sigma 由 (epsilon, delta) 与灵敏度给定。
- 预算账本:
epsilon_total = sum epsilon_i(顺序合成上界),以 manifest.privacy.epsilon_ledger 管理;超限禁止再发布。 - 输出水位:
所有 DP 结果应标注 epsilon_used、delta、sensitivity 与采样规模 N_eff。
IX. 遮蔽、散列与代币化(S69-6)
- mask_fields(ds, fields, mode) 推荐模式:
- "hash":hash_sha256( salt || value ),salt 至少 128 bit 且定期轮换;避免可逆碰撞域。
- "token":保留一对一映射的随机代币 token_id,映射表独立加密存储,访问仅限 admin。
- "redact":以 null 或 m=0 表示缺失,禁止用哑值。
- "generalize":bin(field, bins) 或 quantile_bucket(q)。
- "noise":对数值字段加入零均值噪声,记录 sigma 与适用范围。
- 口径统一:遮蔽后的字段需更新 unit/dim 与 check_dim(expr),防止语义漂移。
X. 留存、冻结与删除(S69-7)
- 留存契约:enforce_retention(ds, ttl_days) 必须验证 legal_hold;冻结数据使用 freeze_release(tag)。
- 删除流程(Mx-5):
- 计算与记录 hash_sha256 指纹清单;
- 去关联 token 映射与 K_enc;
- 安全擦除主副本与索引(包括 idx_k);
- 记录 deletion_log = {ts, uid, resources, method, hash_before, signature};
- 在 manifest.retention 写入完成状态。
- 还原边界:P3 字段删除后不允许通过 Trace 或 aux data 复原等价标识。
XI. 治理角色与职责(S69-8)
- owner:定义目的、批准采集与留存策略。
- steward:维护模式、分级、manifest 与质量门控。
- producer:执行采集、遮蔽与加密,实现 I60 8 接口。
- consumer:基于最小权限访问衍生视图。
- auditor:定期审计 policy、日志与 epsilon_ledger,出具合规报告。
XII. 跨卷锚点的隐私注意事项(S69-9)
- 路径数据 gamma(ell) 与 pid 属 P2 或更高,发布时需至少 geohash(r>=6) 泛化或对 ell 稀疏化。
- T_arr 的发布应优先以区间与统计量形式(median, IQR, RMSE)而非逐记录明细;若必须明细,应用 W1 保真约束下的噪声注入并记录 epsilon_used。
- 任一处理不得增大 delta_form 超过 tol_Tarr,否则回退或改用聚合发布。
XIII. Manifest 扩展字段(S69-10)
- manifest.privacy = {pii_map, mask_strategy, epsilon_ledger, dp_method, sensitivity_ref, impact}。
- manifest.governance = {owner, steward, policy_ref, approvals, audit_log_ref}。
- manifest.cryptography = {enc: "AEAD", key_ref, wrap_ref, rotate_days, aad}。
- manifest.retention = {ttl_days, legal_hold, frozen_tags, deletion_log_ref}。
- manifest.access = {rbac_roles, abac_attrs, pii_level_max}。
XIV. 实现绑定与接口约定(I60 8 对齐)
- anonymize(ds:any, policy:dict) -> any
- policy = {k, l, t, strategies: {field -> {mode, params}}, dp?: {epsilon, delta, method}}。
- 返回带 manifest.privacy 增补的 ds',并产出 impact 报告。
- mask_fields(ds:any, fields:list[str], mode:str="hash") -> any
mode ∈ {"hash","token","redact","generalize","noise"},更新字段词条与 pii_level 降级。 - enforce_retention(ds:any, ttl_days:int) -> any
验证 legal_hold,执行 Mx-5,产出 deletion_log。 - 合同化断言(与 assert_contract 结合):
k_anonymity_ok >= k_min,epsilon_total <= budget,pii_level(field) <= pii_level_max(role),rotate(K, t) <= t_rotate_max。
XV. 度量与门控阈值(建议)
- 去标识化充分性:min_j |E_j| >= k_min(默认 k_min=10),l >= 2,t <= 0.2(以 JSD_norm 计)。
- 差分隐私预算:epsilon_total <= 3.0(单主体年度上限),delta <= 1e-6。
- 加密运行:解密失败率 < 1e-6;密钥过期率 = 0。
- 访问策略:拒绝率异常升高(> p95_ref * 1.5)触发审计。
XVI. 事件响应与复盘(S69-11)
- 分级:Info(策略漂移)、Warn(潜在泄露迹象)、Error(确认泄露或策略破坏)。
- 响应流程:
- 立刻 freeze_release(tag) 并吊销相关 K_enc;
- 切换到去标识化视图与只读访问;
- 生成 incident_report = {ts, scope, fields, pii_level, blast_radius, keys_revoked, epsilon_state};
- 审计与补救:更新 policy、补写测试到 assert_contract;
- 回归验证:在 D_ref 与 D_new 上复测质量与隐私影响。
XVII. 与前后章的接口关系
- 与第6章:索引对高分级字段采用脱敏键(如 token_id),禁建可逆联合索引。
- 与第7章:任何影响隐私口径的模式变更需 major+1,并更新 manifest.privacy 与迁移脚本。
- 与第8章:隐私处理前后需重算 q_score 与 drift,避免过度噪声损害可用性。
XVIII. 执行摘要
任何进入生产的 D 必须:- 完成 pii_level/gov_tag 分级与最小化;
- 落实 AEAD 加密与密钥轮换;
- 通过 anonymize/mask_fields 与契约断言;
- 建立 retention 与 deletion_log;
- 在 manifest 中留存完整治理元数据与审计线。
版权与许可(CC BY 4.0)
版权声明:除另有说明外,《能量丝理论》(含文本、图表、插图、符号与公式)的著作权由作者(“屠广林”先生)享有。
许可方式:本作品采用 Creative Commons 署名 4.0 国际许可协议(CC BY 4.0)进行许可;在注明作者与来源的前提下,允许为商业或非商业目的进行复制、转载、节选、改编与再分发。
署名格式(建议):作者:“屠广林”;作品:《能量丝理论》;来源:energyfilament.org;许可证:CC BY 4.0。
首次发布: 2025-11-11|当前版本:v5.1
协议链接:https://creativecommons.org/licenses/by/4.0/