目录 / 文档-技术白皮书 / 19-EFT.WP.Methods.SynthData v1.0
I. 范围与对象
- 目标
- 定义条件化与可控生成的统一口径:x ~ p_model(x | c; theta),其中 c 可为文本 prompt、结构化条件、数值边界或规则集合。
- 给出 CFG(classifier-free guidance)、规则硬约束与软惩罚的协同机制;在不破坏量纲/单位与物理约束的前提下实现可解释控制。
- 将条件对齐、规则满足与下游效用纳入契约与清单:manifest.synth.cond.*。
- 输入
生成引擎 engine(theta)(见第5章)、条件集 Cset、规则与约束 Rules = { g_j(x,c) ≤ 0 }、参考分布或面板 ref、时基与到达时口径、SLO 与阈值。 - 输出
条件样本 D_syn(c)、对齐报告与接受率 acc_rate(c)、控制强度与调度 w_cfg(t)、契约评估报告、manifest.synth.cond。 - 适用边界
适用于表格、时序、图像/音频/文本与多模态;涉及物理链路者需与第6章共同执行(写入 T_arr, delta_form)。
II. 名词与变量
- 条件与控制:c(condition/prompt),enc(c)(条件编码),w_cfg ∈ R_+(CFG 强度),lambda_j ≥ 0(规则拉格朗日乘子),schedule w_cfg(t)(扩散时步调度),policy(采样与规则策略)。
- 规则与接受:g_j(x,c) ≤ 0(第 j 条硬约束),m_acc ∈ {0,1}(接受指示),acc_rate = ( ∑ m_acc ) / N。
- 对齐与效用:sim_embed(x,c)(条件-样本相似度,如嵌入余弦),util(x,c)(下游效用分),penalty(x,c)(规则惩罚)。
- 时间与到达时:tau_mono, ts, T_arr, gamma(ell), delta_form, offset/skew/J。
- 计量与单位:unit(·), dim(·), check_dim(expr)。
III. 公设 P407-*
- P407-1(条件显式):c 的语义、域与单位必须显式声明并落盘,禁止隐式默认。
- P407-2(最小失真):控制优先保持 p_model(x|c) 的统计保真,任何规则或后处理须最小化对 p_model 的失真。
- P407-3(硬约束优先):对安全、物理与参照完整性相关的规则采用硬约束(拒绝或投影),其余用软惩罚或重采样。
- P407-4(调度可审计):w_cfg(t) 与采样温度、截断等调度策略必须函数化与可复现。
- P407-5(对齐可度量):条件-样本对齐用可重复指标 sim_embed(x,c) 评估并纳入契约。
- P407-6(单位与量纲守恒):条件控制不得破坏 unit/dim 与 check_dim(expr) 的通过。
- P407-7(时基与到达时):涉及时间/路径传播时,强制记录 T_arr 两口径与 delta_form,并在 tau_mono 上评估窗口。
- P407-8(公平与偏差):条件化分布在重要子群上需发布覆盖与差异指标,并提供去偏或再加权通道。
- P407-9(复现与追溯):seed/rng/enc(c)/w_cfg(t)/Rules 必入清单并签名。
- P407-10(多模态一致):多模态条件需在共同嵌入或对齐映射上声明口径,避免跨模态歧义。
IV. 最小方程 S407-*
- S407-1(条件生成基式)
x ~ p_model( x | c; theta ),目标最小化 D( p_model(x|c) || p_ref(x|c) ),D ∈ {W1, KL, MMD}。 - S407-2(CFG 通用写法)
记引导场 s_cond(z,t) = s_theta(z,t|c),无条件场 s_uncond(z,t) = s_theta(z,t|∅),则
s_guided(z,t) = s_uncond(z,t) + w_cfg(t) * ( s_cond(z,t) - s_uncond(z,t) )。 - S407-3(软惩罚与拉格朗日)
min_theta E_{c} E_{x~p_theta(·|c)} [ L_fid(x,c) + ( ∑_j lambda_j * g_j^+(x,c) ) ],其中 g_j^+(x,c) = max( 0, g_j(x,c) )。 - S407-4(硬约束接受-拒绝/投影)
- m_acc(x,c) = 1 若 ∀j, g_j(x,c) ≤ 0,否则 0;接受率 acc_rate = ( ∑ m_acc ) / N。
- 约束投影:x' = Pi_C(x) = argmin_{z ∈ C} d(z,x),残差 res_cons = d(x',x)。
- S407-5(对齐阈值与效用)
sim_embed(x,c) ≥ sim_min,util(x,c) ≥ util_min;不达标触发重采样或增益控制。 - S407-6(序贯 KL 正则)
max_theta E_{x~p_theta(·|c)}[ R(x,c) ] - beta * KL( p_theta(·|c) || p_ref(·|c) ),beta ≥ 0。 - S407-7(到达时两口径)
T_arr = ( 1 / c_ref ) * ( ∫ n_eff d ell ) 与 T_arr = ( ∫ ( n_eff / c_ref ) d ell ),
delta_form = | ( 1 / c_ref ) * ( ∫ n_eff d ell ) - ( ∫ ( n_eff / c_ref ) d ell ) |。
V. 合成流程 M40-7(条件与可控闭环)
- 就绪
明确 Cset、条件编码 enc(c)、对齐度量 sim_embed、规则 Rules、w_cfg(t) 调度、sim_min/util_min、acc_min、SLO 与清单键。 - 条件编码
解析 c 到 enc(c)(文本/结构/数值),完成单位归一与量纲校核 check_dim。 - 候选采样
由引擎产生初样 z_t 或 x0,记录 seed/rng。 - 引导与步进
计算 s_cond 与 s_uncond,组合得到 s_guided,按 w_cfg(t) 步进生成候选 x。 - 规则校核
计算 g_j(x,c);对不满足者执行 reject 或 x ← Pi_C(x);记录 res_cons 与 m_acc。 - 对齐与效用
评估 sim_embed(x,c) 与 util(x,c);不达阈值则自适应调高 w_cfg 或重采样。 - 再加权与去偏(可选)
计算 map 或权重 w(i) 使 p_syn(·|c) 对齐 ref;写入 weights 与 n_eff。 - 时基与到达时(如适用)
写入 tau_mono/ts、T_arr 两口径与 delta_form、offset/skew/J。 - 落盘与发布
生成 manifest.synth.cond,含 enc(c), w_cfg(t), Rules, thresholds, metrics, acc_rate, signature;冻结发布或回退。
VI. 契约与断言 C40-7xx
- C40-701(编码有效):enc(c) 在注册域内,语法与单位合法。
- C40-702(硬约束通过):P( g_j(x,c) ≤ 0 ) ≥ p_pass_min,或 res_cons ≤ tol_cons。
- C40-703(对齐达标):sim_embed_p50 ≥ sim_min 且 sim_embed_p05 ≥ sim_floor。
- C40-704(接受率):acc_rate ≥ acc_min;若不达标,必须发布所用重试轮次 R。
- C40-705(量纲与单位):check_dim(expr)=true。
- C40-706(时基/到达时):non_decreasing(tau_mono),J ≤ J_max,delta_form ≤ tol_Tarr。
- C40-707(公平与覆盖):对关键子群 g,| metric_g - metric_all | ≤ gap_max,或发布再加权映射。
- C40-708(SLO):latency_ms_p99 ≤ SLO_cond,oom_rate ≤ oom_max。
- C40-709(复现):seed/rng/w_cfg(t)/Rules 可重放,哈希签名一致。
VII. 实现绑定 I40-7*(接口原型与不变量)
- encode_condition(c, registry) -> enc(c)
- compose_guidance(engine, method, w_schedule) -> engine'(method ∈ {CFG, classifier, energy})
- sample_conditional(engine', n, enc(c), seed) -> ds_syn
- evaluate_rules(ds_syn, Rules) -> {m_acc, res_cons, report}
- accept_or_project(ds_syn, Rules, projector) -> ds_syn'
- measure_alignment(ds_syn', enc(c), metric) -> {sim_stats, util_stats}
- rebalance_conditional(ref, ds_syn', method) -> {map|w}
- annotate_time_arrival(ds_syn', ref_path) -> ds_syn''(写入 T_arr, delta_form, offset/skew/J)
- emit_conditional_manifest(artifacts) -> manifest.synth.cond
- 不变量:reproducible(seed);acc_rate ≥ acc_min;sim_embed_p50 ≥ sim_min;delta_form ≤ tol_Tarr;unit/dim 校核通过。
VIII. 交叉引用
- 见本卷第5章(深度生成引擎的 CFG 实作)、第6章(物理/仿真与约束投影)、第12章(保真与效用评估)、第13章(发布与清单)。
- 见《Methods.Cleaning v1.0》 第10章(契约与发布冻结)。
- 见《Methods.CrossStats v1.0》 第7/9/14章(分布对齐、校准迁移与统计 SLO)。
- 见《Methods.Imaging v1.0》 第13章(时间/路径门控到达时一致化)。
IX. 质量度量与风控
- 核心 SLI
sim_embed_p50/p05/p95, acc_rate, res_cons, n_eff, latency_ms_p99, oom_rate, fairness_gap, delta_form, J。 - 常见风险与处置
- CFG 过大导致模式崩塌 → 使用 w_cfg(t) 递增调度与早停;引入 KL 正则。
- 规则过严导致低接受率 → 放宽软惩罚、改用投影、或分阶段约束。
- 条件-样本错位 → 提升编码质量或更换嵌入基,设置 sim_min 自适应阈值。
- 单位/量纲被破坏 → 在编码与后处理两处执行 check_dim 与范围夹持。
- 子群偏差 → 启用再加权或映射对齐,发布 gap 与修正证据。
- 时基/到达时漂移 → 重跑 annotate_time_arrival,审计 delta_form 与 J。
小结
本章建立了条件与可控生成的可执行规范:以 P407-* 公设保证条件显式、控制可审计与最小失真;以 S407-* 给出 CFG、拉格朗日惩罚与接受-投影等核心方程;通过 M40-7 流程将编码、引导、校核、对齐与清单发布闭环;以 C40-7xx 契约与 I40-7* 接口确保工程落地与跨卷一致。产出物与指标落至 manifest.synth.cond,支撑后续评估与发布冻结。版权与许可(CC BY 4.0)
版权声明:除另有说明外,《能量丝理论》(含文本、图表、插图、符号与公式)的著作权由作者(“屠广林”先生)享有。
许可方式:本作品采用 Creative Commons 署名 4.0 国际许可协议(CC BY 4.0)进行许可;在注明作者与来源的前提下,允许为商业或非商业目的进行复制、转载、节选、改编与再分发。
署名格式(建议):作者:“屠广林”;作品:《能量丝理论》;来源:energyfilament.org;许可证:CC BY 4.0。
首次发布: 2025-11-11|当前版本:v5.1
协议链接:https://creativecommons.org/licenses/by/4.0/