目录 / 文档-技术白皮书 / 19-EFT.WP.Methods.SynthData v1.0
第10章 隐私、安全与去识别(DP/MI/Linkability)
I. 范围与对象
- 目标
- 为合成数据建立端到端的隐私与安全基线:DP(eps, delta) 预算管理、成员推断 MI 与可链接性 linkability 风险评估、发布与回退策略。
- 对训练与采样过程中的泄漏面进行建模与度量,形成可审计的 manifest.synth.privacy.*。
- 将时基与到达时语义纳入隐私评估闭环,保证跨模态与跨批次一致口径。
- 适用对象
- 统计与深度生成引擎(copula/VAE/GAN/flow/diffusion/SCM),离线批量与在线流式生成。
- 单模态与多模态包(见第9章),含外键与时间列的可链接数据集。
- 输出
预算会计报告、攻击模拟与风险评分、合规断言与发布清单。
II. 名词与变量
- 机制与预算:DP(eps, delta), RDP(alpha, eps_alpha), cDP,会计器 accountant。
- 训练控制:C(clip norm),sigma(noise std),q(subsample rate),T(steps)。
- 风险与指标:Adv_MI(membership advantage),AUC_MI,reid_rate@k,LSR@k(linkability success rate),k_anonymity,l_diversity。
- 时间与到达时:tau_mono, ts, offset/skew/J, T_arr, delta_form。
- 清单键:manifest.synth.privacy.{dp_mech, eps_total, delta_total, sigma, C, q, steps, accountant, attacks, risk_scores}。
III. 公设 P410-*
- P410-1(预算显式):任一发布批次必须给出 eps_total, delta_total 与会计方法。
- P410-2(训练可控):对参与隐私训练的梯度一律执行 clip(C) 与加噪 sigma,并记录 q, T。
- P410-3(组合守恒):多轮生成与多视图聚合按组合规则累计预算,遵循最小上界。
- P410-4(攻击面覆盖):至少覆盖阈值攻击与影子模型的 MI,以及基于键与时间的 linkability。
- P410-5(时基一致):隐私评估使用 tau_mono 窗口,对外以 ts 发布;涉及路径的模态记录 T_arr 两口径与 delta_form。
- P410-6(单位与量纲):隐私相关物理量与噪声注入量需通过 check_dim(expr)。
- P410-7(最小披露):发布的清单与样本仅含满足契约最小必要信息。
- P410-8(复现与签名):seed/rng 与会计轨迹需可复现并签名落盘。
- P410-9(跨模态一致):多模态包的隐私预算以联合视图计入,禁止逐模态单独报小账。
IV. 最小方程 S410-*
- S410-1(Gaussian DP 噪声标定)
- sigma = ( C * sqrt( 2 * log(1.25/delta) ) ) / eps。
- 当使用子采样 q 与多步 T 时,采用会计器计算组合:(eps_total, delta_total) = accountant(q, C, sigma, T)。
- S410-2(RDP→(eps,delta) 转换)
eps_total(delta) = min_{alpha>1} ( eps_RDP(alpha) + ( log(1/delta) ) / ( alpha - 1 ) )。 - S410-3(隐私放大)
子采样放大近似:eps_sub ≈ log( 1 + q * ( exp(eps) - 1 ) ),delta_sub ≈ q * delta。 - S410-4(Membership advantage)
Adv_MI = | P( attack=1 | member ) - P( attack=1 | nonmember ) |,AUC_MI = AUC( score_member, score_nonmember )。 - S410-5(Linkability 成功率)
给定候选集大小 k 与代价矩阵 C_link,LSR@k = P( rank_true ≤ k ),其中 rank_true 基于相似度或匹配代价排序得到。 - S410-6(到达时两口径与一致性)
- T_arr = ( 1 / c_ref ) * ( ∫ n_eff d ell );T_arr = ( ∫ ( n_eff / c_ref ) d ell );
delta_form = | ( 1 / c_ref ) * ( ∫ n_eff d ell ) - ( ∫ ( n_eff / c_ref ) d ell ) |。 - 断言 delta_form ≤ tol_Tarr,以防时间侧信道造成可链接性上升。
- T_arr = ( 1 / c_ref ) * ( ∫ n_eff d ell );T_arr = ( ∫ ( n_eff / c_ref ) d ell );
V. 合成流程 M40-10(隐私与去识别闭环)
- 就绪与分级
明确数据敏感级别与使用场景;选择机制 dp_mech ∈ {Gaussian, Laplace, RDP, cDP},设定 eps_budget, delta_budget。 - 训练阶段控制
执行 clip(C) 与加噪 sigma;配置 q, T 与会计器;记录失败与重试策略,确保 alpha 消耗不超预算。 - 采样与最小披露
采样时执行后处理不增加隐私原则;裁剪高保真可链接字段,必要时进行 k_anonymity/l_diversity 变换。 - 攻击模拟
运行 MI 阈值与影子模型攻击;构建基于键、时间与外键图的 linkability 场景,评估 LSR@k 与 reid_rate@k。 - 风险校核与回退
若 Adv_MI、AUC_MI 或 LSR@k 超阈,执行降噪或再平衡;必要时缩小发布粒度或移除高风险切片。 - 落盘与冻结
生成 manifest.synth.privacy.*,写入预算、会计轨迹、攻击评估与断言结果;签名并冻结。
VI. 契约与断言 C40-10xx
- C40-1001(预算不超):eps_total ≤ eps_budget 且 delta_total ≤ delta_budget。
- C40-1002(训练可控):C ∈ [C_min, C_max],sigma ≥ sigma_min,q ≤ q_max。
- C40-1003(攻击面通过):Adv_MI ≤ adv_max,AUC_MI ≤ auc_max;LSR@k ≤ lsr_max,reid_rate@k ≤ reid_max。
- C40-1004(最小披露):发布字段集合满足策略 min_disclosure(policy)=true。
- C40-1005(时基与到达时一致):|offset| ≤ off_max,J ≤ J_max,且 delta_form ≤ tol_Tarr。
- C40-1006(单位与量纲):check_dim( sigma / C ) = [1](无量纲),相关表达校核通过。
- C40-1007(复现与签名):hash_sha256(manifest) = signature.payload。
- C40-1008(跨模态合帐):多模态联合发布满足 eps_total_joint ≤ eps_budget_joint。
VII. 实现绑定 I40-10*(接口原型与不变量)
- train_with_dp(ds, model, C, sigma, q, T, accountant) -> engine_dp, log
- account_privacy(log, accountant, delta_budget) -> {eps_total, delta_total}
- simulate_attacks(ds_real, ds_syn, scenarios) -> {Adv_MI, AUC_MI, LSR@k, reid_rate@k}
- min_disclosure_transform(ds_syn, policy) -> ds_syn'
- timepath_hardening(ds_syn', sync_ref) -> ds_syn_t(写入 offset/skew/J, T_arr, delta_form)
- emit_privacy_manifest(results, policy) -> manifest.synth.privacy
- 不变量:eps_total 单调随追加步骤递增;sum(weights)/N ≈ 1(若使用再加权);delta_form ≤ tol_Tarr;unit/dim 校核通过;日志具可追溯性。
VIII. 交叉引用
- 见《Methods.Cleaning v1.0》 第10章(发布冻结)与第5/6章(时间与到达时)。
- 见《Methods.CrossStats v1.0》 第7章(漂移)与第14章(统计服务 SLO)。
- 见本卷第12章(保真与效用评估)与第13章(发布与清单)。
IX. 质量度量与风控
- 核心 SLI
eps_total, delta_total, Adv_MI, AUC_MI, LSR@k, reid_rate@k, latency_ms_p99(会计与评估)、off/skew/J, delta_form。 - 风控策略
- 预算不足:提高 sigma 或降低 q/T;采用更强的会计器(如 RDP)。
- MI 高风险:温度退火、增强正则、成员均衡、置信度抑制与阈值截断。
- Linkability 升高:时间抖动上界收紧、外键哈希化与分桶、合并稀有模式。
- 多模态合账:统一在联合视图计量,必要时按视图权重分摊并升噪。
小结
本章确立合成数据的隐私与去识别闭环:以 P410-* 为不可协商口径;以 S410-* 给出预算、会计与攻击指标的最小方程;以 M40-10 完成从训练控制到攻击评估与发布冻结的流程;以 C40-10xx 作为合规闸门;以 I40-10* 保障工程落地与可追溯。最终产出写入 manifest.synth.privacy.*,支撑稳定合规的对外发布。版权与许可(CC BY 4.0)
版权声明:除另有说明外,《能量丝理论》(含文本、图表、插图、符号与公式)的著作权由作者(“屠广林”先生)享有。
许可方式:本作品采用 Creative Commons 署名 4.0 国际许可协议(CC BY 4.0)进行许可;在注明作者与来源的前提下,允许为商业或非商业目的进行复制、转载、节选、改编与再分发。
署名格式(建议):作者:“屠广林”;作品:《能量丝理论》;来源:energyfilament.org;许可证:CC BY 4.0。
首次发布: 2025-11-11|当前版本:v5.1
协议链接:https://creativecommons.org/licenses/by/4.0/