19-EFT.WP.Methods.SynthData v1.0 | 第10章隐私、安全与去识别（DP/MI/Linkability）

目录／文档-技术白皮书（V5.05）／ 19-EFT.WP.Methods.SynthData v1.0

第10章隐私、安全与去识别（DP/MI/Linkability）

I. 范围与对象

目标
- 为合成数据建立端到端的隐私与安全基线：DP(eps, delta) 预算管理、成员推断 MI 与可链接性 linkability 风险评估、发布与回退策略。
- 对训练与采样过程中的泄漏面进行建模与度量，形成可审计的 manifest.synth.privacy.*。
- 将时基与到达时语义纳入隐私评估闭环，保证跨模态与跨批次一致口径。
适用对象
- 统计与深度生成引擎（copula/VAE/GAN/flow/diffusion/SCM），离线批量与在线流式生成。
- 单模态与多模态包（见第9章），含外键与时间列的可链接数据集。
输出
预算会计报告、攻击模拟与风险评分、合规断言与发布清单。

II. 名词与变量

机制与预算：DP(eps, delta), RDP(alpha, eps_alpha), cDP，会计器 accountant。
训练控制：C（clip norm），sigma（noise std），q（subsample rate），T（steps）。
风险与指标：Adv_MI（membership advantage），AUC_MI，reid_rate@k，LSR@k（linkability success rate），k_anonymity，l_diversity。
时间与到达时：tau_mono, ts, offset/skew/J, T_arr, delta_form。
清单键：manifest.synth.privacy.{dp_mech, eps_total, delta_total, sigma, C, q, steps, accountant, attacks, risk_scores}。

III. 公设 P410-*

P410-1（预算显式）：任一发布批次必须给出 eps_total, delta_total 与会计方法。
P410-2（训练可控）：对参与隐私训练的梯度一律执行 clip(C) 与加噪 sigma，并记录 q, T。
P410-3（组合守恒）：多轮生成与多视图聚合按组合规则累计预算，遵循最小上界。
P410-4（攻击面覆盖）：至少覆盖阈值攻击与影子模型的 MI，以及基于键与时间的 linkability。
P410-5（时基一致）：隐私评估使用 tau_mono 窗口，对外以 ts 发布；涉及路径的模态记录 T_arr 两口径与 delta_form。
P410-6（单位与量纲）：隐私相关物理量与噪声注入量需通过 check_dim(expr)。
P410-7（最小披露）：发布的清单与样本仅含满足契约最小必要信息。
P410-8（复现与签名）：seed/rng 与会计轨迹需可复现并签名落盘。
P410-9（跨模态一致）：多模态包的隐私预算以联合视图计入，禁止逐模态单独报小账。

IV. 最小方程 S410-*

S410-1（Gaussian DP 噪声标定）
- sigma = ( C * sqrt( 2 * log(1.25/delta) ) ) / eps。
- 当使用子采样 q 与多步 T 时，采用会计器计算组合：(eps_total, delta_total) = accountant(q, C, sigma, T)。
S410-2（RDP→(eps,delta) 转换）
eps_total(delta) = min_{alpha>1} ( eps_RDP(alpha) + ( log(1/delta) ) / ( alpha - 1 ) )。
S410-3（隐私放大）
子采样放大近似：eps_sub ≈ log( 1 + q * ( exp(eps) - 1 ) )，delta_sub ≈ q * delta。
S410-4（Membership advantage）
Adv_MI = | P( attack=1 | member ) - P( attack=1 | nonmember ) |，AUC_MI = AUC( score_member, score_nonmember )。
S410-5（Linkability 成功率）
给定候选集大小 k 与代价矩阵 C_link，LSR@k = P( rank_true ≤ k )，其中 rank_true 基于相似度或匹配代价排序得到。
S410-6（到达时两口径与一致性）
- T_arr = ( 1 / c_ref ) * ( ∫ n_eff d ell )；T_arr = ( ∫ ( n_eff / c_ref ) d ell )；
  delta_form = | ( 1 / c_ref ) * ( ∫ n_eff d ell ) - ( ∫ ( n_eff / c_ref ) d ell ) |。
- 断言 delta_form ≤ tol_Tarr，以防时间侧信道造成可链接性上升。

V. 合成流程 M40-10（隐私与去识别闭环）

就绪与分级
明确数据敏感级别与使用场景；选择机制 dp_mech ∈ {Gaussian, Laplace, RDP, cDP}，设定 eps_budget, delta_budget。
训练阶段控制
执行 clip(C) 与加噪 sigma；配置 q, T 与会计器；记录失败与重试策略，确保 alpha 消耗不超预算。
采样与最小披露
采样时执行后处理不增加隐私原则；裁剪高保真可链接字段，必要时进行 k_anonymity/l_diversity 变换。
攻击模拟
运行 MI 阈值与影子模型攻击；构建基于键、时间与外键图的 linkability 场景，评估 LSR@k 与 reid_rate@k。
风险校核与回退
若 Adv_MI、AUC_MI 或 LSR@k 超阈，执行降噪或再平衡；必要时缩小发布粒度或移除高风险切片。
落盘与冻结
生成 manifest.synth.privacy.*，写入预算、会计轨迹、攻击评估与断言结果；签名并冻结。

VI. 契约与断言 C40-10xx

C40-1001（预算不超）：eps_total ≤ eps_budget 且 delta_total ≤ delta_budget。
C40-1002（训练可控）：C ∈ [C_min, C_max]，sigma ≥ sigma_min，q ≤ q_max。
C40-1003（攻击面通过）：Adv_MI ≤ adv_max，AUC_MI ≤ auc_max；LSR@k ≤ lsr_max，reid_rate@k ≤ reid_max。
C40-1004（最小披露）：发布字段集合满足策略 min_disclosure(policy)=true。
C40-1005（时基与到达时一致）：|offset| ≤ off_max，J ≤ J_max，且 delta_form ≤ tol_Tarr。
C40-1006（单位与量纲）：check_dim( sigma / C ) = [1]（无量纲），相关表达校核通过。
C40-1007（复现与签名）：hash_sha256(manifest) = signature.payload。
C40-1008（跨模态合帐）：多模态联合发布满足 eps_total_joint ≤ eps_budget_joint。

VII. 实现绑定 I40-10*（接口原型与不变量）

train_with_dp(ds, model, C, sigma, q, T, accountant) -> engine_dp, log
account_privacy(log, accountant, delta_budget) -> {eps_total, delta_total}
simulate_attacks(ds_real, ds_syn, scenarios) -> {Adv_MI, AUC_MI, LSR@k, reid_rate@k}
min_disclosure_transform(ds_syn, policy) -> ds_syn'
timepath_hardening(ds_syn', sync_ref) -> ds_syn_t（写入 offset/skew/J, T_arr, delta_form）
emit_privacy_manifest(results, policy) -> manifest.synth.privacy
不变量：eps_total 单调随追加步骤递增；sum(weights)/N ≈ 1（若使用再加权）；delta_form ≤ tol_Tarr；unit/dim 校核通过；日志具可追溯性。

VIII. 交叉引用

见《Methods.Cleaning v1.0》第10章（发布冻结）与第5/6章（时间与到达时）。
见《Methods.CrossStats v1.0》第7章（漂移）与第14章（统计服务 SLO）。
见本卷第12章（保真与效用评估）与第13章（发布与清单）。

IX. 质量度量与风控

核心 SLI
eps_total, delta_total, Adv_MI, AUC_MI, LSR@k, reid_rate@k, latency_ms_p99（会计与评估）、off/skew/J, delta_form。
风控策略
- 预算不足：提高 sigma 或降低 q/T；采用更强的会计器（如 RDP）。
- MI 高风险：温度退火、增强正则、成员均衡、置信度抑制与阈值截断。
- Linkability 升高：时间抖动上界收紧、外键哈希化与分桶、合并稀有模式。
- 多模态合账：统一在联合视图计量，必要时按视图权重分摊并升噪。

小结

本章确立合成数据的隐私与去识别闭环：以 P410-* 为不可协商口径；以 S410-* 给出预算、会计与攻击指标的最小方程；以 M40-10 完成从训练控制到攻击评估与发布冻结的流程；以 C40-10xx 作为合规闸门；以 I40-10* 保障工程落地与可追溯。最终产出写入 manifest.synth.privacy.*，支撑稳定合规的对外发布。

版权与许可：除另有说明外，《能量丝理论》（含文本、图表、插图、符号与公式）的著作权由作者（屠广林）享有。
许可方式（CC BY 4.0）：在注明作者与来源的前提下，允许复制、转载、节选、改编与再分发。
署名格式（建议）：作者：屠广林｜作品：《能量丝理论》｜来源：energyfilament.org｜许可证：CC BY 4.0
验证召集： 作者独立自费、无雇主无资助；下一阶段将优先在最愿意公开讨论、公开复现、公开挑错的环境中推进落地，不限国家。欢迎各国媒体与同行抓住窗口组织验证，并与我们联系。
版本信息： 首次发布：2025-11-11 ｜当前版本：v6.0+5.05