目录 / 文档-技术白皮书 / 19-EFT.WP.Methods.SynthData v1.0
I. 范围与对象
- 目标
- 建立从 p_model(x; theta) 逼近 p_data(x) 的统一生成基线,覆盖距离度量、时间/路径一致、量纲守恒与隐私预算的共同口径。
- 定义发布闸门所需的必要方程与阈值映射,作为后续各章实现与评估的基础。
- 输入
- 参考分布与样本:D_real ~ p_data(x);模式与约束:SRef, Rules;时间与路径锚定:tau_mono, ts, gamma(ell)。
- 预算与策略:Privacy = {eps, delta, accounting};评估指标:Metrics = {W1, KL, JS, MMD, FID, KID, covg}。
- 输出
生成基线报告 {divergence, coverage, uncertainty, privacy};阈值建议 {tol_*};契约映射 C40-2xx。
II. 名词与变量
- 分布与参数:p_data(x), p_model(x; theta), theta, z ~ p(z)。
- 距离与核:KL, JS, W1, MMD(k), FID(mu,Sigma)。
- 时间与到达时:T_arr, c_ref, n_eff(有效折射率,注意与权重有效样本区分),gamma(ell), d ell。
- 不确定度:u(x)(标准不确定度),U = k * u_c(扩展不确定度),alpha(置信水平)。
- 隐私预算:DP(eps, delta), eps_total, delta_total。
- 覆盖与代表性:covg, supp(·), n_eff_weights = ( (∑ w)^2 ) / ( ∑ w^2 )。
III. 公设 P402-*(生成基线不可协商项)
- P402-1(测度显式):任一积分或期望必须指明域与测度,如 ( ∫_Omega p(x) dx ) = 1。
- P402-2(距离明示):保真仅以明确的距离或散度族定义,不以“肉眼可见”或启发式代替。
- P402-3(量纲守恒):进入模型或指标的物理量必须满足 check_dim(expr),单位一致后方可计算。
- P402-4(时基一体化):统计窗口在 tau_mono 上评估,对外以 ts 发布,记录 offset/skew/J。
- P402-5(到达时两口径):涉及传播/路径时,必须并行计算
T_arr = ( 1 / c_ref ) * ( ∫ n_eff d ell ) 与 T_arr = ( ∫ ( n_eff / c_ref ) d ell ),并发布 delta_form。 - P402-6(隐私预算显式):发布合成数据前必须给出 DP(eps, delta) 的会计与累计预算 eps_total, delta_total。
- P402-7(最小发布判据):pass = fidelity_ok ∧ privacy_ok ∧ contract_ok ∧ manifest_signed。
- P402-8(可重现):相同 SynthSpec, seed/rng 与版本生成的 D_syn 统计等价。
- P402-9(覆盖下界):关键分层或枚举的覆盖率 covg 必须达到策略下界。
- P402-10(稳态与背压):流式生成在执行图 G=(V,E) 上满足稳定性与背压约束(见《Core.Threads v1.0》)。
IV. 最小方程 S402-*(生成基线必要式)
- S402-1(拟合目标)
- theta* = argmin_theta D( p_model(·; theta ) || p_data(·) ),其中 D ∈ { KL, JS, W1, MMD }。
- 约束化形式:min_theta ( D + λ * R(theta) ),其中 R 含规则/物理/几何/参照完整性罚项。
- S402-2(Wasserstein-1 距离)
W1(P,Q) = inf_{pi ∈ Π(P,Q)} ( ∫ c(x,y) d pi(x,y) ),常用 c(x,y)=||x-y||_1 or ||x-y||_2。 - S402-3(MMD)
MMD^2(P,Q;k) = || μ_P - μ_Q ||_H^2 = E_{x,x'} k(x,x') - 2 E_{x,y} k(x,y) + E_{y,y'} k(y,y'),需声明核 k 与带宽。 - S402-4(FID/KID)(影像或嵌入域)
- FID = || mu_r - mu_s ||_2^2 + Tr( Sigma_r + Sigma_s - 2 * ( Sigma_r * Sigma_s )^{1/2} )。
- KID 使用多次子采样的核偏差无关估计,需声明特征提取口径。
- S402-5(覆盖率与支撑集)
离散近似:covg = | supp(D_syn) ∩ supp(D_real) | / | supp(D_real) |;连续域以网格或核近似求测度占比。 - S402-6(不确定度发布)
- 扩展不确定度:U = k * u_c,k 由覆盖概率 1 - alpha 确定;若采用自助法,发布分位区间 {q_{alpha/2}, q_{1-alpha/2}}。
- Delta 方法(简式):var( g( hat{theta} ) ) ≈ ( ∇g )^T * cov( hat{theta} ) * ( ∇g )。
- S402-7(隐私会计,简单组合)
eps_total = ( ∑_{r=1}^R eps_r ),delta_total = ( ∑_{r=1}^R delta_r );若用高级会计,需附会计器与参数口径。 - S402-8(到达时两口径差)
delta_form = | ( 1 / c_ref ) * ( ∫ n_eff d ell ) - ( ∫ ( n_eff / c_ref ) d ell ) |,并断言 delta_form ≤ tol_Tarr。 - S402-9(时间映射与抖动)
ts = map_tau_to_ts( tau_mono; offset, skew );抖动上界 J 写入清单 manifest.synth.timing。 - S402-10(权重有效样本,若采用再加权)
n_eff_weights = ( (∑ w_i)^2 ) / ( ∑ w_i^2 ),并要求 W_norm = ( ∑ w_i ) / N ≈ 1。
V. 合成流程 M40-2(生成基线校核)
- 就绪
确认 SRef/Rules、单位与量纲通过 check_dim;设定 Metrics 与阈值初稿 {tol_W1, tol_MMD, tol_FID, covg_min}。 - 训练/拟合
解 theta* = argmin_theta D + λR;记录 theta_ref 与 seed/rng。 - 路径/时间一致
计算 T_arr 两口径与 delta_form;执行 map_tau_to_ts 并测 offset/skew/J。 - 指标与不确定度
评估 {W1, KL, JS, MMD, FID, KID, covg};产出不确定度 U or CI。 - 隐私会计
汇总 eps_total, delta_total;若超预算,回滚或降采样/加噪重训。 - 契约与落盘
执行 C40-2xx 契约;通过则写入 manifest.synth 并签名,否则出具整改建议与回退点。
VI. 契约与断言 C40-2xx(生成基线)
- C40-201(距离阈值):W1 ≤ tol_W1 ∧ MMD ≤ tol_MMD(或 FID ≤ tol_FID 适用于影像)。
- C40-202(覆盖下界):covg ≥ covg_min,以及关键分层 covg_group ≥ covg_min_group。
- C40-203(到达时一致):delta_form ≤ tol_Tarr。
- C40-204(时基抖动):J ≤ J_max;|offset| ≤ off_max;|skew| ≤ skew_max。
- C40-205(隐私预算):eps_total ≤ bud_eps ∧ delta_total ≤ bud_delta;披露会计方法。
- C40-206(量纲守恒):check_dim(expr)=true;单位表随清单发布。
- C40-207(有效样本)(如使用再加权):n_eff_weights / N ≥ r_min 且 W_norm ≈ 1。
- C40-208(可重现):重复运行偏差 |metric' - metric| ≤ tol_repro。
VII. 实现绑定 I40-*(本章锚点)
- I40-201 measure_fidelity(real, syn, metrics) -> report(实现 W1/KL/JS/MMD/FID/KID/covg,附 CI 或 U)
- I40-202 privacy_accounting(steps, mechanism) -> {eps_total, delta_total}
- I40-203 propagate_uncertainty(estimates, method) -> {U or CI}(method ∈ {delta, bootstrap, bayes})
- I40-204 enforce_timepath_baseline(ds_syn, ref) -> {delta_form, offset, skew, J}
- I40-205 evaluate_weight_effective(w) -> {n_eff_weights, W_norm}
- I40-206 assert_synth_contract(report, rules) -> decision
- 不变量:sum(w)/N ≈ 1;eps_total 不超预算;delta_form ≤ tol_Tarr;unit/dim 校核通过;同 seed 重现等价。
VIII. 交叉引用
- 清洗:单位/量纲(第4章)、时间轴与同步(第5章)、路径与到达时(第6章)、契约与发布(第10章)。
- 成像:指标口径与嵌入域(PSF→指标解释,第5章;质量与审计,第14章)。
- 跨统计:不确定度传播(第4/5章)、多重比较(第6章)、漂移与对齐(第7章)。
IX. 质量度量与风控
- 基线面板字段:metrics.{W1,MMD,FID,KID,KL,JS,covg}, uncertainty.{U,CI}, timing.{offset,skew,J}, arrival.delta_form, privacy.{eps_total,delta_total}。
- 风控策略:当 W1 或 MMD 超阈值,优先执行再加权/映射或重训;当 eps_total 接近预算,转入低保真模式或延迟发布;当 delta_form 超阈值,强制路径/介质参数复核。
小结
- 本章以 P402-* 定义生成基线的不可协商项,并以 S402-* 给出距离、覆盖、到达时、时基、隐私与不确定度的必要方程。
- 通过 M40-2 的校核流程与 C40-2xx 契约,为后续各类生成引擎、条件控制与发布治理提供统一闸门与实现锚点。
版权与许可(CC BY 4.0)
版权声明:除另有说明外,《能量丝理论》(含文本、图表、插图、符号与公式)的著作权由作者(“屠广林”先生)享有。
许可方式:本作品采用 Creative Commons 署名 4.0 国际许可协议(CC BY 4.0)进行许可;在注明作者与来源的前提下,允许为商业或非商业目的进行复制、转载、节选、改编与再分发。
署名格式(建议):作者:“屠广林”;作品:《能量丝理论》;来源:energyfilament.org;许可证:CC BY 4.0。
首次发布: 2025-11-11|当前版本:v5.1
协议链接:https://creativecommons.org/licenses/by/4.0/