目录文档-技术白皮书19-EFT.WP.Methods.SynthData v1.0

第10章 隐私、安全与去识别(DP/MI/Linkability)


I. 范围与对象

  1. 目标
    • 为合成数据建立端到端的隐私与安全基线:DP(eps, delta) 预算管理、成员推断 MI 与可链接性 linkability 风险评估、发布与回退策略。
    • 对训练与采样过程中的泄漏面进行建模与度量,形成可审计的 manifest.synth.privacy.*。
    • 将时基与到达时语义纳入隐私评估闭环,保证跨模态与跨批次一致口径。
  2. 适用对象
    • 统计与深度生成引擎(copula/VAE/GAN/flow/diffusion/SCM),离线批量与在线流式生成。
    • 单模态与多模态包(见第9章),含外键与时间列的可链接数据集。
  3. 输出
    预算会计报告、攻击模拟与风险评分、合规断言与发布清单。

II. 名词与变量


III. 公设 P410-*


IV. 最小方程 S410-*

  1. S410-1(Gaussian DP 噪声标定)
    • sigma = ( C * sqrt( 2 * log(1.25/delta) ) ) / eps。
    • 当使用子采样 q 与多步 T 时,采用会计器计算组合:(eps_total, delta_total) = accountant(q, C, sigma, T)。
  2. S410-2(RDP→(eps,delta) 转换)
    eps_total(delta) = min_{alpha>1} ( eps_RDP(alpha) + ( log(1/delta) ) / ( alpha - 1 ) )。
  3. S410-3(隐私放大)
    子采样放大近似:eps_sub ≈ log( 1 + q * ( exp(eps) - 1 ) ),delta_sub ≈ q * delta。
  4. S410-4(Membership advantage)
    Adv_MI = | P( attack=1 | member ) - P( attack=1 | nonmember ) |,AUC_MI = AUC( score_member, score_nonmember )。
  5. S410-5(Linkability 成功率)
    给定候选集大小 k 与代价矩阵 C_link,LSR@k = P( rank_true ≤ k ),其中 rank_true 基于相似度或匹配代价排序得到。
  6. S410-6(到达时两口径与一致性)
    • T_arr = ( 1 / c_ref ) * ( ∫ n_eff d ell );T_arr = ( ∫ ( n_eff / c_ref ) d ell );
      delta_form = | ( 1 / c_ref ) * ( ∫ n_eff d ell ) - ( ∫ ( n_eff / c_ref ) d ell ) |。
    • 断言 delta_form ≤ tol_Tarr,以防时间侧信道造成可链接性上升。

V. 合成流程 M40-10(隐私与去识别闭环)


VI. 契约与断言 C40-10xx


VII. 实现绑定 I40-10*(接口原型与不变量)


VIII. 交叉引用


IX. 质量度量与风控

  1. 核心 SLI
    eps_total, delta_total, Adv_MI, AUC_MI, LSR@k, reid_rate@k, latency_ms_p99(会计与评估)、off/skew/J, delta_form。
  2. 风控策略
    • 预算不足:提高 sigma 或降低 q/T;采用更强的会计器(如 RDP)。
    • MI 高风险:温度退火、增强正则、成员均衡、置信度抑制与阈值截断。
    • Linkability 升高:时间抖动上界收紧、外键哈希化与分桶、合并稀有模式。
    • 多模态合账:统一在联合视图计量,必要时按视图权重分摊并升噪。

小结

本章确立合成数据的隐私与去识别闭环:以 P410-* 为不可协商口径;以 S410-* 给出预算、会计与攻击指标的最小方程;以 M40-10 完成从训练控制到攻击评估与发布冻结的流程;以 C40-10xx 作为合规闸门;以 I40-10* 保障工程落地与可追溯。最终产出写入 manifest.synth.privacy.*,支撑稳定合规的对外发布。

版权与许可(CC BY 4.0)

版权声明:除另有说明外,《能量丝理论》(含文本、图表、插图、符号与公式)的著作权由作者(“屠广林”先生)享有。
许可方式:本作品采用 Creative Commons 署名 4.0 国际许可协议(CC BY 4.0)进行许可;在注明作者与来源的前提下,允许为商业或非商业目的进行复制、转载、节选、改编与再分发。
署名格式(建议):作者:“屠广林”;作品:《能量丝理论》;来源:energyfilament.org;许可证:CC BY 4.0。

首次发布: 2025-11-11|当前版本:v5.1
协议链接:https://creativecommons.org/licenses/by/4.0/