目录文档-技术白皮书19-EFT.WP.Methods.SynthData v1.0

第4章 生成引擎 I:统计与显式模型(Copula/GLM/规则)


I. 范围与对象

  1. 目标
    • 以统计与显式建模方式实现可控、可审计的合成数据生成,覆盖表格、计数、比例与部分序贯事件。
    • 通过 copula 表达联合依赖,通过 GLM 表达条件分布,通过规则与约束确保业务与物理一致。
  2. 输入
    规范化数据 D_ref(见第3章),模式 SRef,约束集 Rules 与 Constraints,时间/路径锚定 tau_mono, ts, gamma(ell)。
  3. 输出
    • 统计生成引擎 engine_stat,含边缘分布 marginals、依赖结构 copula、条件模型 glm_family、规则编译产物 ruleset。
    • 合成样本 D_syn、评估与契约报告 report_stat、清单 manifest.synth.stat.*。
  4. 适用边界
    中等维度与样本量、合规场景优先;对极高维或复杂纹理数据转至第5章深度生成或第6章物理/场景方法。

II. 名词与变量


III. 公设 P404-*


IV. 最小方程 S404-*

  1. S404-1(Sklar 分解)
    p(x) = c(u; psi) * ∏_{i=1}^d f_i(x_i),其中 u_i = F_i(x_i)。
  2. S404-2(Gaussian copula 密度)
    • z_i = Phi^{-1}(u_i),c_R(u) = |R|^{-1/2} * exp( - 0.5 * z^T * ( R^{-1} - I ) * z )。
    • rho = sin( ( pi / 2 ) * tau_K )(tau_K 与 rho 的映射)。
  3. S404-3(采样步骤)
    • u ~ C(u; psi);
    • x_i = F_i^{-1}( u_i );
    • 若离散字段 x_j,执行 quantize_to_enum( x_j, enum_j ) 与分辨率约束。
  4. S404-4(GLM 基式)
    g( mu ) = X beta,mu = E[y|X];典型族:
    • Bernoulli:mu = 1 / ( 1 + exp( - X beta ) )。
    • Poisson:mu = exp( X beta )。
    • NegativeBinomial:Var(y|X) = mu + kappa * mu^2。
  5. S404-5(零膨胀混合)
    p(y) = pi0 * 1[y = 0] + ( 1 - pi0 ) * p_base( y ; mu, ... )。
  6. S404-6(约束投影)
    x_proj = argmin || x - x0 ||_2 s.t. A x ≤ b , h(x) = 0(构造性满足)。
  7. S404-7(时间映射与到达时)
    • ts = map_tau_to_ts( tau_mono ; offset, skew );
    • delta_form = | ( 1 / c_ref ) * ( ∫ n_eff d ell ) - ( ∫ ( n_eff / c_ref ) d ell ) |。
  8. S404-8(边缘拟合优度)
    KS_i = sup_x | F_i(x) - F_i^{syn}(x) |;AD_i 与 CvM_i 可选。

V. 合成流程 M40-4(统计/显式生成)


VI. 契约与断言 C40-41x


VII. 实现绑定 I40-*(接口原型与不变量)


VIII. 交叉引用


IX. 质量度量与风控

  1. 指标
    • 边缘:{KS_i, AD_i, CvM_i};均值/方差偏差;类别覆盖率。
    • 依赖:tau_K 差、R 误差、尾部联合概率误差。
    • 生成效率:accept_rate, latency_p99_ms, throughput_qps。
    • 合规模块:delta_form, J, psi(对上线后的漂移监测)。
  2. 风控策略
    • 依赖偏差超阈:切换 vine copula 或提高秩相关拟合自由度。
    • 过度离散:从 Poisson 切换 NB 或增加随机效应(移步第12章)。
    • 规则满足不足:改用投影模式或强化构造性采样;必要时降级发布。
    • 时基/到达时异常:复核 map_tau_to_ts 与介质参数,阻断发布直至 delta_form 合格。

小结


版权与许可(CC BY 4.0)

版权声明:除另有说明外,《能量丝理论》(含文本、图表、插图、符号与公式)的著作权由作者(“屠广林”先生)享有。
许可方式:本作品采用 Creative Commons 署名 4.0 国际许可协议(CC BY 4.0)进行许可;在注明作者与来源的前提下,允许为商业或非商业目的进行复制、转载、节选、改编与再分发。
署名格式(建议):作者:“屠广林”;作品:《能量丝理论》;来源:energyfilament.org;许可证:CC BY 4.0。

首次发布: 2025-11-11|当前版本:v5.1
协议链接:https://creativecommons.org/licenses/by/4.0/