目录 / 文档-技术白皮书 / 19-EFT.WP.Methods.SynthData v1.0
I. 适用范围与目标
- 统一定义合成数据从设计→训练→生成→评估→发布各环节的不确定度来源、组合与发布口径,给出 U = k * u_c 的覆盖发布规则,兼容离线批处理与流式增量场景。
- 产出:不确定度账本 err_budget.*、方法标注 method ∈ {analytic, bootstrap, posterior}、窗口与时基字段、契约映射到 contracts.* 与 manifest.synth.*。
II. 名词与变量
- 模型与参数:theta(生成引擎参数),hat_theta(估计值),Sigma_theta = Cov(hat_theta)。
- 样本与权重:D_real, D_syn, n_real, n_syn, w_i, n_eff = ( ( ∑ w_i )^2 ) / ( ∑ w_i^2 )。
- 指标与估计:y = g(x)(指标函数),u(x)(标准不确定度),u_c(y)(合成标准不确定度),U = k * u_c(覆盖不确定度)。
- 机制噪声:sigma_dp(DP 机制标准差或等效量),eps_total, delta_total(隐私预算)。
- 时基与到达时:tau_mono, ts, T_arr, delta_form,offset/skew/J。
- 误差分量:u_model(模型估计),u_sampling(有限采样),u_dp(隐私),u_align(时基/路径),u_eval(评估器/嵌入),u_env(场景/域随机化)。
III. 公设 P40E-*
- P40E-1(测度显式):一切期望、方差、积分需声明域与测度,嵌入与预处理口径固定且版本化。
- P40E-2(覆盖发布):所有对外指标同时发布 u_c 与 U = k * u_c,给出 k 与方法来源。
- P40E-3(分量可追溯):误差账本分解为 {u_model, u_sampling, u_dp, u_align, u_eval, u_env},不可混记。
- P40E-4(时基一致):窗口计算在 tau_mono 上,发布在 ts,记录 offset/skew/J 与 T_arr 两口径与 delta_form。
- P40E-5(量纲守恒):在传播前执行 check_dim( y - f(x) ),任何单位转换显式记录。
- P40E-6(私噪独立):DP 噪声与数据独立假设优先,若相关需给出相关项或上界。
- P40E-7(再现性):发布用于重现不确定度评估的 seed/rng 与重采样轮次 B。
IV. 最小方程 S40E-*
- S40E-1(Delta 线性化):u_c^2( y ) = grad_x g(x)^T * Cov(x) * grad_x g(x)。
- S40E-2(参数传播):u_model^2( y ) = J_theta * Sigma_theta * J_theta^T,其中 J_theta = ∂g/∂theta |_{hat_theta}。
- S40E-3(有限采样):u_sampling^2( y ) ≈ Var_hat( y | theta ) / n_eff。
- S40E-4(私噪传播):若 y = g(x + n_dp) 且 n_dp ~ (0, Sigma_dp),则 u_dp^2( y ) = J_x * Sigma_dp * J_x^T。
- S40E-5(到达时贡献):u_align^2( y ) = ( ∂g/∂T_arr )^2 * u^2( T_arr ),其中
u^2( T_arr ) = u_jitter^2 + ( delta_form^2 ) / 3(等效均匀上界近似)。 - S40E-6(合成合并):若分量近似独立,u_c^2 = u_model^2 + u_sampling^2 + u_dp^2 + u_align^2 + u_eval^2 + u_env^2;若存在相关,增加 2 * ∑ Cov_i,j。
- S40E-7(自助法):u(y) = std( { y^(b) }_{b=1..B} ),CI = quantile( { y^(b) }, [alpha/2, 1-alpha/2] )。
- S40E-8(贝叶斯):U = k * sd( { g(theta^(s)) }_{s=1..S} ),或发布分位区间 q_{alpha/2}, q_{1-alpha/2}。
- S40E-9(权重 SE):SE( mean_w )^2 = ( ∑ w_i^2 * (x_i - mean_w)^2 ) / ( ( ∑ w_i )^2 )。
V. 传播路径与账本结构
- 典型链路(声明各环节的 u_*)
- 设计与标定:hat_theta, Sigma_theta → u_model。
- 采样与生成:n_syn, w_i → u_sampling(含 n_eff)。
- 约束与对齐:enforce_constraints, align_timepath → u_align。
- 隐私与水印:DP 机制与会计 → u_dp 与 {eps_total, delta_total}。
- 评估与嵌入:FID/KID/MMD/W1/utility_gap → u_eval。
- 域随机化:场景参数方差 → u_env。
- 合并:u_c^2 = ∑ u_*^2 (+ 相关项),发布 U = k * u_c。
- 账本键建议
- err_budget.model/sampling/dp/align/eval/env = {method, value, details}。
- details 至少含 B|S, kernel|backbone|layer, seed/rng, window, unit/dim。
VI. 合成特有场景的要点与式子
- 嵌入型指标(如 FID)
近似:u_eval^2( FID ) ≈ grad_{mu,Sigma} FID^T * Cov( mu,Sigma ) * grad_{mu,Sigma} FID;Cov( mu,Sigma ) 由样本协方差的渐进近似或自助法给出。 - 距离核参数敏感性(如 MMD_RBF)
u_eval^2 ≈ ( ∂MMD/∂h )^2 * u^2(h ) + Delta-法的样本项,其中 h 为核带宽。 - 私噪合成(计数/直方图约束)
高斯机制:若发布 c = true_count + n, n ~ N(0, sigma_dp^2),则 u_dp^2 = sigma_dp^2;传播至 y=g(c) 用 J_c 线性化。 - 条件/可控生成
条件扰动 c 的不确定度:u_env^2 = J_c * Cov(c) * J_c^T;若使用拒绝采样造成有效样本减少,更新 n_eff。 - 时序/事件合成
到达强度 lambda 的估计方差进入 u_sampling;对 W1( inter_arrival ) 用区块自助法,避免相关性低估。 - 多模态一致
合并多个指标时,用 median_of_means 聚合并发布 u_agg,或提供每模态独立区间与相关矩阵上界。
VII. 窗口与时基对齐
- 窗口策略
固定跨度 Delta_t 与滑动步长,发布前检查 n_eff ≥ n_eff_min;不足时延迟发布或扩大窗口。 - 对齐要求
每窗记录 offset/skew/J;涉及路径的度量同时记录 T_arr 两口径和值差 delta_form 与其 u( T_arr )。 - 流式递推(均值与方差)
- S_{t+1} = S_t + ( x_{t+1} - mu_t ) * ( x_{t+1} - mu_{t+1} );u = sqrt( S / ( n - 1 ) );加权版以 n_eff 替换 n。
- mu_{t+1} = mu_t + ( x_{t+1} - mu_t ) / n;
VIII. 契约与断言 C40E-*
- C40E-1(覆盖门控):assert( y + k * u_c(y) ≤ tol_y ) 或两侧区间覆盖目标区间。
- C40E-2(有效样本):assert( n_eff ≥ n_eff_min )(默认建议 n_eff_min = 128)。
- C40E-3(私噪预算):assert( eps_total ≤ eps_cap ∧ delta_total ≤ delta_cap ),并记录会计方法。
- C40E-4(到达时一致):assert( delta_form ≤ tol_Tarr ),并将其贡献纳入 u_align。
- C40E-5(方法披露):method ∈ {analytic, bootstrap, posterior} 与关键参数完整落盘,否则视为违规。
- C40E-6(量纲校核):assert( check_dim( y - f(x) ) = pass )。
IX. 实现绑定 I40-*(不确定度相关)
- propagate_uncertainty_synth(report_in) -> err_budget
- 输出:分量 u_*、u_c, U 与 details。
- 输入:hat_theta, Sigma_theta, metrics_raw, dp_config, align_info, env_cov。
- bootstrap_metrics(ds_syn, metrics, B, seed) -> {u, CI, samples}
自助法采样、区间与样本落盘。 - posterior_pushforward(posterior, g, S) -> {u, CI}
采样后验 theta^(s) 推送到 y=g(theta)。 - dp_accounting_and_variance(steps) -> {eps_total, delta_total, Sigma_dp}
基于机制与会计口径返回预算与等效协方差。 - align_timepath_for_uncertainty(ds, sync_ref) -> {T_arr_form1, T_arr_form2, delta_form, u(T_arr)}
与 I40-81 align_timepath 一致化,输出对齐不确定度。 - emit_uncertainty_manifest(err_budget) -> manifest.synth.metrics[*].u
写入 manifest.synth。
不变量:reproducible(seed);delta_form ≤ tol_Tarr;eps_total, delta_total 不超预算;check_dim=pass;记录 method 与参数。
X. 交叉引用
- 清洗与到达时两口径:见《Methods.Cleaning v1.0》第6/10章与附录B、C。
- 成像与嵌入度量不确定度:见《Methods.Imaging v1.0》第14章与附录D/E。
- 统计传播与覆盖口径:见《Methods.CrossStats v1.0》第二、四、五章与附录E。
XI. 小结
本附录给出合成数据不确定度的分层分量、线性化与抽样两路计算、私噪与到达时贡献的标准合并式,并将 u_c 与 U = k * u_c 接入契约与清单。按此发布的 err_budget.* 可在跨卷复用、跨版本审计与回放重现中保持可比与可追溯。版权与许可(CC BY 4.0)
版权声明:除另有说明外,《能量丝理论》(含文本、图表、插图、符号与公式)的著作权由作者(“屠广林”先生)享有。
许可方式:本作品采用 Creative Commons 署名 4.0 国际许可协议(CC BY 4.0)进行许可;在注明作者与来源的前提下,允许为商业或非商业目的进行复制、转载、节选、改编与再分发。
署名格式(建议):作者:“屠广林”;作品:《能量丝理论》;来源:energyfilament.org;许可证:CC BY 4.0。
首次发布: 2025-11-11|当前版本:v5.1
协议链接:https://creativecommons.org/licenses/by/4.0/