目录 / 文档-技术白皮书 / 19-EFT.WP.Methods.SynthData v1.0
第4章 生成引擎 I:统计与显式模型(Copula/GLM/规则)
I. 范围与对象
- 目标
- 以统计与显式建模方式实现可控、可审计的合成数据生成,覆盖表格、计数、比例与部分序贯事件。
- 通过 copula 表达联合依赖,通过 GLM 表达条件分布,通过规则与约束确保业务与物理一致。
- 输入
规范化数据 D_ref(见第3章),模式 SRef,约束集 Rules 与 Constraints,时间/路径锚定 tau_mono, ts, gamma(ell)。 - 输出
- 统计生成引擎 engine_stat,含边缘分布 marginals、依赖结构 copula、条件模型 glm_family、规则编译产物 ruleset。
- 合成样本 D_syn、评估与契约报告 report_stat、清单 manifest.synth.stat.*。
- 适用边界
中等维度与样本量、合规场景优先;对极高维或复杂纹理数据转至第5章深度生成或第6章物理/场景方法。
II. 名词与变量
- 数据与分布:x = (x_1,...,x_d), F_i, f_i, u_i = F_i(x_i), C(u; psi)。
- Copula:R(correlation for gaussian copula), nu(dof for t copula), tau_K(Kendall tau)。
- GLM:X ∈ R^{N×p}, y, eta = X beta, g(mu) = eta, mu = E[y|X], phi(dispersion)。
- 规则与约束:A x ≤ b, h(x) = 0, rule_k, domain_k,离散约束 x_j ∈ enum_j。
- 时基与到达时:tau_mono, ts, T_arr, gamma(ell), delta_form, offset/skew/J。
- 其他:seed, rng, w(权重),pi0(zero inflation),U = k * u_c(扩展不确定度)。
III. 公设 P404-*
- P404-1(测度显式):联合用 copula 与边缘分布分解,测度与域显式声明。
- P404-2(量纲守恒):unit(x), dim(x) 必填,check_dim(expr) 必过。
- P404-3(依赖分离):依赖只由 copula 承担,边缘变换保持秩信息。
- P404-4(GLM 族优先):优先使用指数族与规范链接;过度离散使用 NB 或准似然。
- P404-5(规则为先):能构造性满足约束则不采用拒绝法;确需拒绝采样时记录接受率。
- P404-6(时基一致):生成在 tau_mono 上执行,发布映射为 ts 并记录 offset/skew/J。
- P404-7(到达时两口径):涉及 T_arr 必并行计算两口径并产出 delta_form。
- P404-8(可复现):seed/rng 记录在清单中,保证复现实验。
- P404-9(隐私前置):若引擎带 DP(eps,delta),预算在本章即计入并透传到发布。
- P404-10(稳定性):优化与拟合过程需给出收敛准则与失败回退策略。
IV. 最小方程 S404-*
- S404-1(Sklar 分解)
p(x) = c(u; psi) * ∏_{i=1}^d f_i(x_i),其中 u_i = F_i(x_i)。 - S404-2(Gaussian copula 密度)
- z_i = Phi^{-1}(u_i),c_R(u) = |R|^{-1/2} * exp( - 0.5 * z^T * ( R^{-1} - I ) * z )。
- rho = sin( ( pi / 2 ) * tau_K )(tau_K 与 rho 的映射)。
- S404-3(采样步骤)
- u ~ C(u; psi);
- x_i = F_i^{-1}( u_i );
- 若离散字段 x_j,执行 quantize_to_enum( x_j, enum_j ) 与分辨率约束。
- S404-4(GLM 基式)
g( mu ) = X beta,mu = E[y|X];典型族:- Bernoulli:mu = 1 / ( 1 + exp( - X beta ) )。
- Poisson:mu = exp( X beta )。
- NegativeBinomial:Var(y|X) = mu + kappa * mu^2。
- S404-5(零膨胀混合)
p(y) = pi0 * 1[y = 0] + ( 1 - pi0 ) * p_base( y ; mu, ... )。 - S404-6(约束投影)
x_proj = argmin || x - x0 ||_2 s.t. A x ≤ b , h(x) = 0(构造性满足)。 - S404-7(时间映射与到达时)
- ts = map_tau_to_ts( tau_mono ; offset, skew );
- delta_form = | ( 1 / c_ref ) * ( ∫ n_eff d ell ) - ( ∫ ( n_eff / c_ref ) d ell ) |。
- S404-8(边缘拟合优度)
KS_i = sup_x | F_i(x) - F_i^{syn}(x) |;AD_i 与 CvM_i 可选。
V. 合成流程 M40-4(统计/显式生成)
- 就绪
选择字段 F_gen、约束 Constraints 与 Rules;锁定 unit/dim 与时间/到达时字段。 - 边缘拟合
为每个 x_i 拟合 F_i 与 f_i(参数化或核密度/分位数样条);记录不确定度 U_i。 - 依赖拟合
估计 tau_K 或秩相关矩阵,拟合 copula(gaussian/t/vine 等),得到 psi 或 R。 - 条件模型
对指定 y 拟合 GLM 或零膨胀/障碍模型,选择链接 g 与族;校验过度离散。 - 采样与规则
采样 u -> x,合成 y;执行规则编译器对 A x ≤ b, h(x)=0, enum,必要时投影或最少拒绝。 - 时基与到达时
在 tau_mono 上生成,映射到 ts,如涉及 T_arr 并行两口径并写入 delta_form。 - 校核与落盘
计算 KS_i, tau_K 差、均值/方差对齐误差、接受率;执行契约 C40-41x;输出 D_syn 与 manifest.synth.stat。
VI. 契约与断言 C40-41x
- C40-411(边缘一致):对所有 i,KS_i ≤ tol_KS_i,且 mean/var 偏差在阈值内。
- C40-412(依赖一致):| tau_K^{real} - tau_K^{syn} | ≤ tol_tau;若用 R,|| R_real - R_syn ||_F ≤ tol_R。
- C40-413(离散与范围):x_j ∈ enum_j 且 range_j 内,违反率 ≤ tol_range。
- C40-414(GLM 校准):cal_error ≤ tol_cal,过度离散比 phi/phi_ref ≤ tol_phi。
- C40-415(规则满足):A x ≤ b 与 h(x)=0 满足率 ≥ sat_min,拒绝率 ≤ rej_max。
- C40-416(时基与到达时):non_decreasing(tau_mono),J ≤ J_max,delta_form ≤ tol_Tarr。
- C40-417(量纲/单位):check_dim(expr)=true,单位映射完备。
- C40-418(复现与签名):seed/rng 落盘,signature 有效。
VII. 实现绑定 I40-*(接口原型与不变量)
- I40-41 fit_marginals(ds, spec) -> marginals
- I40-42 fit_engine_copula(ds, family, opts) -> engine_copula(family ∈ {gaussian, t, vine})
- I40-43 sample_copula(engine_copula, marginals, n, seed) -> df_u2x
- I40-44 fit_engine_glm(ds, formula, family, link) -> model_glm
- I40-45 sample_glm(model_glm, X_new|X_syn, seed) -> y_syn
- I40-46 compile_rules(SRef, constraints, policies) -> ruleset
- I40-47 enforce_rules(ds_syn, ruleset, mode) -> ds_syn'(mode ∈ {project, reject})
- I40-48 timepath_align_for_synth(ds_syn, ref) -> ds_syn'(写入 offset/skew/J, T_arr, delta_form)
- I40-49 evaluate_stat_contracts(real, syn, rules) -> report_stat
- I40-4A emit_stat_manifest(artifacts) -> manifest.synth.stat
- 不变量:reproducible(seed);||R||_2 ≤ 1;sat_rate ≥ sat_min;rej_rate ≤ rej_max;delta_form ≤ tol_Tarr;unit/dim 守恒。
VIII. 交叉引用
- 见《Methods.SynthData v1.0》 第5章(深度生成)、第6章(物理/场景图)以处理高维或强约束场景。
- 见《Methods.Cleaning v1.0》 第4章(单位与量纲)、第5章(时间轴)、第6章(到达时)。
- 见《Methods.CrossStats v1.0》 第4章(估计与区间)、第7章(漂移与对齐)用于评估与基线更新。
- 见《Methods.Imaging v1.0》 第5章(PSF/OTF/MTF)当规则涉及光学与辐射校准。
IX. 质量度量与风控
- 指标
- 边缘:{KS_i, AD_i, CvM_i};均值/方差偏差;类别覆盖率。
- 依赖:tau_K 差、R 误差、尾部联合概率误差。
- 生成效率:accept_rate, latency_p99_ms, throughput_qps。
- 合规模块:delta_form, J, psi(对上线后的漂移监测)。
- 风控策略
- 依赖偏差超阈:切换 vine copula 或提高秩相关拟合自由度。
- 过度离散:从 Poisson 切换 NB 或增加随机效应(移步第12章)。
- 规则满足不足:改用投影模式或强化构造性采样;必要时降级发布。
- 时基/到达时异常:复核 map_tau_to_ts 与介质参数,阻断发布直至 delta_form 合格。
小结
- 本章给出统计与显式生成的统一闭环:以 P404-* 约束为纲、S404-* 为可计算基式、M40-4 为流程骨架,配合 C40-41x 契约与 I40-* 实现绑定。
- 产出 engine_stat、D_syn、report_stat 与 manifest.synth.stat.*,为后续深度/物理方法与发布冻结提供可复现、可审计的基座。
版权与许可(CC BY 4.0)
版权声明:除另有说明外,《能量丝理论》(含文本、图表、插图、符号与公式)的著作权由作者(“屠广林”先生)享有。
许可方式:本作品采用 Creative Commons 署名 4.0 国际许可协议(CC BY 4.0)进行许可;在注明作者与来源的前提下,允许为商业或非商业目的进行复制、转载、节选、改编与再分发。
署名格式(建议):作者:“屠广林”;作品:《能量丝理论》;来源:energyfilament.org;许可证:CC BY 4.0。
首次发布: 2025-11-11|当前版本:v5.1
协议链接:https://creativecommons.org/licenses/by/4.0/