目录 / 文档-技术白皮书 / 19-EFT.WP.Methods.SynthData v1.0
第5章 生成引擎 II:深度生成(VAE/GAN/Flow/Diffusion)
I. 范围与对象
- 目标
- 面向高维与多模态数据(图像/语音/文本/时序/图),以 VAE/GAN/Flow/Diffusion 实现高保真、可控、可审计的合成生成。
- 保持与真实分布 p_data 的统计一致与任务效用,同时满足 DP(eps,delta)、时基/到达时一致与量纲守恒。
- 输入
规范化参考数据 D_ref(见第3章)、模式 SRef、深度引擎规格 EngineSpec、隐私预算与 SLO 目标。 - 输出
深度生成引擎 engine_deep(含家族、架构、权重、噪声日程)、合成样本 D_syn、指标报告与 manifest.synth.deep.*。 - 适用边界
对强物理约束或精确单位守恒,优先配合第6章(物理/场景图);对低维结构化,优先第4章(统计与显式模型)。
II. 名词与变量
- 通用:x ∈ X, z ~ p(z), c(condition/prompt), theta(生成参数), phi(推断/判别参数), seed, rng。
- VAE:q_phi(z|x), p_theta(x|z), ELBO, beta(正则权重)。
- GAN:G(z,c; theta), D(x,c; w), f(critic), lambda_gp(梯度惩罚)。
- Flow:z = f_theta(x), p0(z), J_f(Jacobian), bpd(bits per dim)。
- Diffusion:x_t, t ∈ [0,1], beta_t, alpha_bar_t, eps_theta(x_t,t,c), NFE(function eval 次数), w_cfg(classifier-free guidance weight)。
- 时间/路径:tau_mono, ts, T_arr, gamma(ell), delta_form, offset/skew/J。
- 隐私:DP(eps,delta);会计器返回 eps_total。
III. 公设 P405-*
- P405-1(测度显式):训练/采样目标的密度、似然或散度必须显式,禁止仅以启发式指标替代。
- P405-2(可控生成):条件变量 c 的分布、接口与覆盖范围须登记,并在清单落盘。
- P405-3(稳定优先):训练过程定义可监控的收敛准则与回退策略(见 IX)。
- P405-4(隐私预算前置):若采用 DP-SGD/PATE/DP-noise,必须计算并发布 eps_total, delta。
- P405-5(时基一致):在 tau_mono 上训练/采样,发布映射为 ts,记录 offset/skew/J。
- P405-6(到达时两口径):涉及 T_arr 必并行计算两口径并记录 delta_form。
- P405-7(量纲守恒):unit/dim 经标准化与逆变换均不破坏守恒(借助第3章与第4章约束层)。
- P405-8(再现性):seed/rng/solver/NFE 必落盘,保证可复现实验与延迟评估。
- P405-9(评估分离):训练集、验证集、评估集严格隔离;合成评估采用与第12章一致的指标族。
- P405-10(合成责任制):任何蒸馏/加速/量化需重新评估保真、隐私与 SLO。
IV. 最小方程 S405-*
- S405-1(VAE-ELBO)
- ELBO(theta,phi; x) = E_{q_phi(z|x)}[ log p_theta(x|z) ] - KL( q_phi(z|x) || p(z) );
- ELBO_beta = E_{q_phi}[ log p_theta(x|z) ] - beta * KL( q_phi(z|x) || p(z) )。
- S405-2(GAN/WGAN 损失)
- min_G max_D E_x[ log D(x) ] + E_{z}[ log( 1 - D( G(z) ) ) ]。
- WGAN : min_G max_{||f||_L ≤ 1} E_x f(x) - E_z f( G(z) ),
GP : + lambda_gp * E_{x_hat}( ( || ∇_{x_hat} f(x_hat) ||_2 - 1 )^2 )。
- S405-3(Flow 变换)
- z = f_theta(x),log p_theta(x) = log p0(z) + log | det J_f(x) |,
- bpd = ( - log p_theta(x) ) / ( n_dims * log 2 )。
- S405-4(Diffusion 前向与训练)
- x_t = ( alpha_bar_t )^{1/2} * x_0 + sigma_t * eps, eps ~ N(0,I);
- L_simple = E_{t,x,eps}( || eps - eps_theta(x_t, t, c) ||_2^2 )。
- S405-5(Score-SDE 反向)
d x = f(x,t) dt + g(t) d w_t,反向 d x = [ f - g^2 ∇_x log p_t(x) ] dt + g d w_bar_t。 - S405-6(CFG)
eps_cfg = eps_theta(x_t,t,c) + w_cfg * ( eps_theta(x_t,t,c) - eps_theta(x_t,t,∅) )。 - S405-7(到达时两口径)
delta_form = | ( 1 / c_ref ) * ( ∫ n_eff d ell ) - ( ∫ ( n_eff / c_ref ) d ell ) |。 - S405-8(DP-SGD 梯度裁剪与噪声)
g_i ← clip( g_i, C ),ḡ = ( 1 / m ) * ( ∑ g_i ) + N( 0, ( sigma * C )^2 I ),会计器输出 eps_total。
V. 合成流程 M40-5(深度生成闭环)
- 就绪
选择家族与架构(VAE/GAN/Flow/Diffusion)、目标函数与 metrics;确定 DP(eps,delta) 与 SLO。 - 预处理与模式绑定
数据标准化、unit/dim 映射、tau_mono 对齐(见第3章与第2章公设);切分 train/val/test。 - 训练
- VAE:重构项与 KL 的调度(beta/anneal/free-bits)。
- GAN:WGAN-GP/SN 等稳定化;数据增广与判别器正则。
- Flow:耦合层/仿射层、可逆性与对数行列式数值稳定。
- Diffusion:beta_t 日程、v/eps/x0 预测头、离散或 SDE 解算器配置。
- 条件与可控
定义 c 空间、CFG w_cfg 范围、拒绝采样或后验投影的成本上限。 - 采样与加速
记录 NFE/solver/latency;必要时执行蒸馏(如 DPM-Solver/Consistency/Teacher-Student)。 - 规则与时基
enforce_constraints 与 align_timepath(写入 offset/skew/J, T_arr, delta_form)。 - 评估
- 保真:FID/KID/PR-curve/coverage;可逆/似然:bpd/NLL;VAE:ELBO/recon-PSNR;Diffusion:FVD(视频)。
- 统计一致:见第12章度量;漂移对齐:见 CrossStats 第7章。
- 隐私与安全
计算 eps_total 与 MI risk;水印与溯源。 - 落盘与发布
生成 manifest.synth.deep,签名与冻结(见第13章)。
VI. 契约与断言 C40-5xx
- C40-511(保真阈值):FID ≤ tol_FID,KID_mean ± se ≤ tol_KID,PR_recall ≥ recall_min。
- C40-512(似然可逆)(Flow):bpd ≤ tol_bpd,inv_error ≤ tol_inv。
- C40-513(VAE 校准):ELBO_val 提升且 posterior_collapse_rate ≤ tol_collapse,recon_PSNR ≥ psnr_min。
- C40-514(Diffusion 时延):NFE ≤ NFE_max,latency_ms_p99 ≤ SLO_latency,w_cfg ≤ cfg_max。
- C40-515(分布覆盖):coverage ≥ covg_min,mode_drop ≤ tol_mode_drop。
- C40-516(隐私):eps_total ≤ eps_budget,MI ≤ mi_max。
- C40-517(时基/到达时):non_decreasing(tau_mono),J ≤ J_max,delta_form ≤ tol_Tarr。
- C40-518(量纲):check_dim(expr)=true 全通过。
- C40-519(复现):seed/rng/solver/NFE 已落盘且可重放。
VII. 实现绑定 I40-5*(接口原型与不变量)
- fit_engine_vae(ds, arch, beta, privacy) -> engine_vae
- fit_engine_gan(ds, arch, loss, lambda_gp, aug, privacy) -> engine_gan
- fit_engine_flow(ds, arch, base_dist, schedule) -> engine_flow
- fit_engine_diffusion(ds, arch, noise_schedule, loss_head, privacy) -> engine_diff
- sample_vae(engine_vae, n, condition, seed) -> ds_syn
- sample_gan(engine_gan, n, condition, seed) -> ds_syn
- sample_flow(engine_flow, n, condition, seed) -> ds_syn
- sample_diffusion(engine_diff, n, solver, NFE, w_cfg, condition, seed) -> ds_syn
- distill_diffusion(engine_diff, solver_src, solver_tgt, NFE_tgt) -> engine_diff_tiny
- measure_gen_metrics(real, syn, metrics) -> report
- privacy_accountant(logs) -> {eps_total, delta}
- emit_deep_manifest(artifacts) -> manifest.synth.deep
- 不变量:reproducible(seed);eps_total 不超预算;latency_p99 满足 SLO;delta_form ≤ tol_Tarr;unit/dim 守恒。
VIII. 交叉引用
- 见本卷第4章(统计与显式模型)用于低维或强约束补位;第6章(物理/场景图)用于物理一致强化;第12章(保真与效用评估)与第13章(发布冻结)。
- 见《Methods.Cleaning v1.0》 第4/5/6章(单位、时基、到达时)。
- 见《Methods.CrossStats v1.0》 第7章(漂移与对齐)、第14章(SLO 与审计)。
IX. 质量度量与风控
- 训练稳定性
监控 grad_norm, loss_real/fake 差、critic_drift, KL/ELBO 曲线、bpd 趋势、NFE 与 latency_p99。 - 典型风险与处置
- VAE posterior collapse → KL anneal/free-bits/hierarchical VAE。
- GAN mode collapse/振荡 → WGAN-GP/SN, 判别器正则、数据增广、学习率/动量调参。
- Flow 数值不稳 → 更换耦合层、约束 Lipschitz、精度提升。
- Diffusion 过慢 → DDIM/DPM-Solver/Consistency、蒸馏与 NFE 自适应;w_cfg 过大引起漂移则回落或调参。
- 隐私过耗 → 提升裁剪门限 C 管理、增大噪声系数、降低迭代轮次或分桶训练。
小结
- 本章定义 VAE/GAN/Flow/Diffusion 的统一口径:P405-* 约束、S405-* 可计算基式、M40-5 闭环流程、C40-5xx 契约与 I40-5* 实现绑定。
- 产出 engine_deep、D_syn、指标与 manifest.synth.deep,并为第6章(物理/场景图)、第12章(评估)与第13章(发布)提供可复现与可审计的深度生成基座。
版权与许可(CC BY 4.0)
版权声明:除另有说明外,《能量丝理论》(含文本、图表、插图、符号与公式)的著作权由作者(“屠广林”先生)享有。
许可方式:本作品采用 Creative Commons 署名 4.0 国际许可协议(CC BY 4.0)进行许可;在注明作者与来源的前提下,允许为商业或非商业目的进行复制、转载、节选、改编与再分发。
署名格式(建议):作者:“屠广林”;作品:《能量丝理论》;来源:energyfilament.org;许可证:CC BY 4.0。
首次发布: 2025-11-11|当前版本:v5.1
协议链接:https://creativecommons.org/licenses/by/4.0/