目录文档-技术白皮书19-EFT.WP.Methods.SynthData v1.0

第11章 偏差、公平与代表性(Reweight/Mapping)


I. 范围与对象

  1. 目标
    • 以再加权 reweight 与分布映射 mapping(含最优传输与单调映射)控制 D_syn 对 p_target 的代表性与群体公平,降低选择偏差与覆盖缺口。
    • 在不破坏物理/业务约束与隐私预算的前提下,使合成数据的边缘与条件分布满足指定政策与合规模型。
    • 输出可审计的 manifest.synth.fairness.* 与跨窗口一致的运行指标。
  2. 适用对象
    表格、时序、图与多模态数据;离线与流式生成;与下游训练或评测耦合的情形。
  3. 输出
    权重向量 w(i) 或映射 T(x)、校核报告、契约断言与发布清单。

II. 名词与变量


III. 公设 P411-*


IV. 最小方程 S411-*

  1. S411-1(密度比再加权)
    • r(x) = p_target(x) / p_syn(x),w(x) = clip( r(x), 0, w_clip ),w_norm = w / ( (1/N) * ∑_i w_i )。
    • 有效样本量:n_eff = ( (∑_i w_i)^2 ) / ( ∑_i w_i^2 )。
  2. S411-2(加权风险与公平约束)
    min_f E_{(x,y)~p_syn}[ w(x) * L( f(x), y ) ]
    s.t. | P_w( hat{Y}=1 | A=a ) - P_w( hat{Y}=1 | A=b ) | ≤ tol_spd,
    | TPR_w(a) - TPR_w(b) | ≤ tol_eod_TPR,| FPR_w(a) - FPR_w(b) | ≤ tol_eod_FPR。
  3. S411-3(Wasserstein 映射)
    • T# p_syn = p_target,T = argmin_T E_{x~p_syn}[ c( x, T(x) ) ],常用 c(x,z) = ||x - z||_2。
    • 熵正则 OT:π* = argmin_π ⟨π, C⟩ + λ * H(π),T(x) = ∑_j π*(x,x_j') * x_j'。
  4. S411-4(MMD 对齐)
    MMD^2 = || (1/N)∑ φ(x_i) - (1/M)∑ φ(x_j') ||_H^2 ≤ tol_mmd,核与带宽需在清单中显式。
  5. S411-5(代表性比例与覆盖)
    repr_ratio(a) = p_syn(A=a) / p_target(A=a),covg = |supp(p_target) ∩ supp(p_syn)| / |supp(p_target)|。
  6. S411-6(到达时一致)
    T_arr = ( 1 / c_ref ) * ( ∫ n_eff d ell );T_arr = ( ∫ ( n_eff / c_ref ) d ell );
    delta_form = | ( 1 / c_ref ) * ( ∫ n_eff d ell ) - ( ∫ ( n_eff / c_ref ) d ell ) |。

V. 合成流程 M40-11(代表性与公平闭环)

  1. 目标设定
    明确 p_target(可由参考集或政策向量定义)、保护属性 A、窗口与阈值。
  2. 基线评估
    计算 repr_ratio(a), W1, MMD, psi, covg,并在 tau_mono 窗口下分段。
  3. 方法选择
    若边缘比例偏差为主,先行 reweight;若结构性偏差明显,采用 OT/monotone mapping 或混合策略。
  4. 参数求解
    • 估计 r(x)(logistic-ratio | KLIEP | Bregman),得到 w_norm 并检验 n_eff。
    • 或求解 π* / T(x),保持外键、单位与物理约束。
  5. 校核与回退
    复评 W1/MMD/psi/SPD/EOD,若任一超阈:增大正则、收紧 w_clip、分层对齐或回退到更粗粒度目标。
  6. 到达时与时基处理
    对时间/路径字段执行 timepath_hardening,写入 offset/skew/J, T_arr, delta_form。
  7. 落盘与冻结
    生成 manifest.synth.fairness.* 与签名;记录方法、参数、阈值与窗口化结果。

VI. 契约与断言 C40-11xx


VII. 实现绑定 I40-11*(接口原型与不变量)


VIII. 交叉引用


IX. 质量与风控

  1. SLI
    W1, MMD, psi, repr_ratio_p95, n_eff/N, |SPD|, |EOD|, latency_ms_p99(对齐管线)、delta_form。
  2. 策略
    • 再加权发散:收紧 w_clip、分层估计、引入正则化与平滑。
    • 结构偏差残留:切换到 OT 或分段单调映射;必要时重设 p_target 粒度。
    • 公平冲突与效用下降:多目标权衡或约束松弛,使用代价敏感学习与稳定验证。
    • 流式漂移:在滑动窗口上滚动更新 w/T,与告警/回退联动。

小结

本章给出以 reweight 与 mapping 为核心的代表性与公平治理闭环:以 P411-* 明确不可协商口径;以 S411-* 规定密度比、OT/MMD 与公平约束的最小方程;以 M40-11 形成就绪→对齐→校核→冻结的流程;以 C40-11xx 作为发布闸门;以 I40-11* 落地工程接口与不变量。产出通过 manifest.synth.fairness.* 对外发布并可审计。

版权与许可(CC BY 4.0)

版权声明:除另有说明外,《能量丝理论》(含文本、图表、插图、符号与公式)的著作权由作者(“屠广林”先生)享有。
许可方式:本作品采用 Creative Commons 署名 4.0 国际许可协议(CC BY 4.0)进行许可;在注明作者与来源的前提下,允许为商业或非商业目的进行复制、转载、节选、改编与再分发。
署名格式(建议):作者:“屠广林”;作品:《能量丝理论》;来源:energyfilament.org;许可证:CC BY 4.0。

首次发布: 2025-11-11|当前版本:v5.1
协议链接:https://creativecommons.org/licenses/by/4.0/