目录 / 文档-技术白皮书 / 19-EFT.WP.Methods.SynthData v1.0
第11章 偏差、公平与代表性(Reweight/Mapping)
I. 范围与对象
- 目标
- 以再加权 reweight 与分布映射 mapping(含最优传输与单调映射)控制 D_syn 对 p_target 的代表性与群体公平,降低选择偏差与覆盖缺口。
- 在不破坏物理/业务约束与隐私预算的前提下,使合成数据的边缘与条件分布满足指定政策与合规模型。
- 输出可审计的 manifest.synth.fairness.* 与跨窗口一致的运行指标。
- 适用对象
表格、时序、图与多模态数据;离线与流式生成;与下游训练或评测耦合的情形。 - 输出
权重向量 w(i) 或映射 T(x)、校核报告、契约断言与发布清单。
II. 名词与变量
- 数据与属性:X(features), Y(label), A(protected attribute), C(condition/prompt), p_ref, p_syn, p_target。
- 再加权:w(x), r(x) = p_target(x) / p_syn(x), w_clip, n_eff = ( (∑ w)^2 ) / ( ∑ w^2 )。
- 映射与距离:T: X -> X', W1, MMD, KL, psi(population stability index)。
- 公平度量:SPD = P(hat{Y}=1|A=1) - P(hat{Y}=1|A=0), EOD = (TPR_1-TPR_0, FPR_1-FPR_0), PPD(predictive parity diff)。
- 时间与到达时:tau_mono, ts, offset/skew/J, T_arr, delta_form。
- 清单键:manifest.synth.fairness.{method, targets, W1, MMD, psi, SPD, EOD, n_eff, windows, signature}。
III. 公设 P411-*
- P411-1(目标显式):发布前必须给出代表性目标分布 p_target 或群体比例向量与容差。
- P411-2(方法等价):reweight 与 mapping 在发布口径上等价,需同步给出影响分析与回退路径。
- P411-3(约束优先):物理与业务约束、外键与参照完整性优先于配平操作。
- P411-4(时基一致):代表性与公平度量在 tau_mono 评估,对外以 ts 发布,并提供窗口。
- P411-5(稳健性):任何再加权应保证 n_eff / N ≥ rho_min,防止方差爆炸。
- P411-6(隐私不减):后处理不降低 DP(eps,delta) 保障;若需再训练,必须重新会计预算。
- P411-7(到达时两口径):涉及路径/时间字段调整时,必须记录 T_arr 两口径与 delta_form。
- P411-8(量纲守恒):数值映射遵循 check_dim(expr),不可引入单位冲突。
- P411-9(多模态一致):多模态包按联合视图对齐,禁止单模态孤立配平导致跨模态不一致。
IV. 最小方程 S411-*
- S411-1(密度比再加权)
- r(x) = p_target(x) / p_syn(x),w(x) = clip( r(x), 0, w_clip ),w_norm = w / ( (1/N) * ∑_i w_i )。
- 有效样本量:n_eff = ( (∑_i w_i)^2 ) / ( ∑_i w_i^2 )。
- S411-2(加权风险与公平约束)
min_f E_{(x,y)~p_syn}[ w(x) * L( f(x), y ) ]
s.t. | P_w( hat{Y}=1 | A=a ) - P_w( hat{Y}=1 | A=b ) | ≤ tol_spd,
| TPR_w(a) - TPR_w(b) | ≤ tol_eod_TPR,| FPR_w(a) - FPR_w(b) | ≤ tol_eod_FPR。 - S411-3(Wasserstein 映射)
- T# p_syn = p_target,T = argmin_T E_{x~p_syn}[ c( x, T(x) ) ],常用 c(x,z) = ||x - z||_2。
- 熵正则 OT:π* = argmin_π ⟨π, C⟩ + λ * H(π),T(x) = ∑_j π*(x,x_j') * x_j'。
- S411-4(MMD 对齐)
MMD^2 = || (1/N)∑ φ(x_i) - (1/M)∑ φ(x_j') ||_H^2 ≤ tol_mmd,核与带宽需在清单中显式。 - S411-5(代表性比例与覆盖)
repr_ratio(a) = p_syn(A=a) / p_target(A=a),covg = |supp(p_target) ∩ supp(p_syn)| / |supp(p_target)|。 - S411-6(到达时一致)
T_arr = ( 1 / c_ref ) * ( ∫ n_eff d ell );T_arr = ( ∫ ( n_eff / c_ref ) d ell );
delta_form = | ( 1 / c_ref ) * ( ∫ n_eff d ell ) - ( ∫ ( n_eff / c_ref ) d ell ) |。
V. 合成流程 M40-11(代表性与公平闭环)
- 目标设定
明确 p_target(可由参考集或政策向量定义)、保护属性 A、窗口与阈值。 - 基线评估
计算 repr_ratio(a), W1, MMD, psi, covg,并在 tau_mono 窗口下分段。 - 方法选择
若边缘比例偏差为主,先行 reweight;若结构性偏差明显,采用 OT/monotone mapping 或混合策略。 - 参数求解
- 估计 r(x)(logistic-ratio | KLIEP | Bregman),得到 w_norm 并检验 n_eff。
- 或求解 π* / T(x),保持外键、单位与物理约束。
- 校核与回退
复评 W1/MMD/psi/SPD/EOD,若任一超阈:增大正则、收紧 w_clip、分层对齐或回退到更粗粒度目标。 - 到达时与时基处理
对时间/路径字段执行 timepath_hardening,写入 offset/skew/J, T_arr, delta_form。 - 落盘与冻结
生成 manifest.synth.fairness.* 与签名;记录方法、参数、阈值与窗口化结果。
VI. 契约与断言 C40-11xx
- C40-1101(比例代表性):对全部 a,|repr_ratio(a) - 1| ≤ tol_repr。
- C40-1102(结构对齐):W1 ≤ tol_W1 且 MMD ≤ tol_MMD 且 psi ≤ tol_psi。
- C40-1103(有效样本量):n_eff / N ≥ rho_min。
- C40-1104(公平约束):|SPD| ≤ tol_spd,|TPR_1-TPR_0| ≤ tol_eod_TPR,|FPR_1-FPR_0| ≤ tol_eod_FPR。
- C40-1105(约束与单位):assert_foreign_key=true 且 check_dim( T(x) - x ) 合法。
- C40-1106(到达时一致):delta_form ≤ tol_Tarr;|offset| ≤ off_max, J ≤ J_max。
- C40-1107(多模态一致):联合视图下对齐指标通过,不得仅单模态达标。
- C40-1108(隐私不减):eps_total_after ≤ eps_total_before(后处理不会降低隐私保障)。
VII. 实现绑定 I40-11*(接口原型与不变量)
- estimate_density_ratio(ref, syn, method) -> r_hat
- compute_reweight(r_hat, clip, normalize) -> w_norm, n_eff
- fit_ot_map(syn, target, cost, reg) -> T, π*
- apply_mapping(ds_syn, T, constraints) -> ds_syn'
- audit_representativeness(ds_syn', ref, metrics) -> {W1, MMD, psi, repr_ratio, covg}
- audit_group_fairness(ds_syn', model_spec|metric) -> {SPD, EOD, PPD}
- timepath_hardening(ds_syn', sync_ref) -> ds_syn_t(写入 T_arr, delta_form, offset/skew/J)
- emit_fairness_manifest(results, policy) -> manifest.synth.fairness
- 不变量:sum(w_norm)/N ≈ 1;n_eff 单调随 w_clip 增大;foreign_key 不破;delta_form ≤ tol_Tarr;unit/dim 校核通过。
VIII. 交叉引用
- 见《Methods.CrossStats v1.0》 第7章(漂移与对齐)、第9章(校准迁移)。
- 见本卷第5章(深度生成稳健性)、第9章(多模态配平)、第12章(保真与效用评估),以及第10章(隐私约束)。
- 见《Methods.Cleaning v1.0》 第10章(发布冻结)与附录B(契约库)。
IX. 质量与风控
- SLI
W1, MMD, psi, repr_ratio_p95, n_eff/N, |SPD|, |EOD|, latency_ms_p99(对齐管线)、delta_form。 - 策略
- 再加权发散:收紧 w_clip、分层估计、引入正则化与平滑。
- 结构偏差残留:切换到 OT 或分段单调映射;必要时重设 p_target 粒度。
- 公平冲突与效用下降:多目标权衡或约束松弛,使用代价敏感学习与稳定验证。
- 流式漂移:在滑动窗口上滚动更新 w/T,与告警/回退联动。
小结
本章给出以 reweight 与 mapping 为核心的代表性与公平治理闭环:以 P411-* 明确不可协商口径;以 S411-* 规定密度比、OT/MMD 与公平约束的最小方程;以 M40-11 形成就绪→对齐→校核→冻结的流程;以 C40-11xx 作为发布闸门;以 I40-11* 落地工程接口与不变量。产出通过 manifest.synth.fairness.* 对外发布并可审计。版权与许可(CC BY 4.0)
版权声明:除另有说明外,《能量丝理论》(含文本、图表、插图、符号与公式)的著作权由作者(“屠广林”先生)享有。
许可方式:本作品采用 Creative Commons 署名 4.0 国际许可协议(CC BY 4.0)进行许可;在注明作者与来源的前提下,允许为商业或非商业目的进行复制、转载、节选、改编与再分发。
署名格式(建议):作者:“屠广林”;作品:《能量丝理论》;来源:energyfilament.org;许可证:CC BY 4.0。
首次发布: 2025-11-11|当前版本:v5.1
协议链接:https://creativecommons.org/licenses/by/4.0/