目录文档-技术白皮书19-EFT.WP.Methods.SynthData v1.0

第7章 条件与可控生成(Prompt/CFG/规则)


I. 范围与对象

  1. 目标
    • 定义条件化与可控生成的统一口径:x ~ p_model(x | c; theta),其中 c 可为文本 prompt、结构化条件、数值边界或规则集合。
    • 给出 CFG(classifier-free guidance)、规则硬约束与软惩罚的协同机制;在不破坏量纲/单位与物理约束的前提下实现可解释控制。
    • 将条件对齐、规则满足与下游效用纳入契约与清单:manifest.synth.cond.*。
  2. 输入
    生成引擎 engine(theta)(见第5章)、条件集 Cset、规则与约束 Rules = { g_j(x,c) ≤ 0 }、参考分布或面板 ref、时基与到达时口径、SLO 与阈值。
  3. 输出
    条件样本 D_syn(c)、对齐报告与接受率 acc_rate(c)、控制强度与调度 w_cfg(t)、契约评估报告、manifest.synth.cond。
  4. 适用边界
    适用于表格、时序、图像/音频/文本与多模态;涉及物理链路者需与第6章共同执行(写入 T_arr, delta_form)。

II. 名词与变量


III. 公设 P407-*


IV. 最小方程 S407-*

  1. S407-1(条件生成基式)
    x ~ p_model( x | c; theta ),目标最小化 D( p_model(x|c) || p_ref(x|c) ),D ∈ {W1, KL, MMD}。
  2. S407-2(CFG 通用写法)
    记引导场 s_cond(z,t) = s_theta(z,t|c),无条件场 s_uncond(z,t) = s_theta(z,t|∅),则
    s_guided(z,t) = s_uncond(z,t) + w_cfg(t) * ( s_cond(z,t) - s_uncond(z,t) )。
  3. S407-3(软惩罚与拉格朗日)
    min_theta E_{c} E_{x~p_theta(·|c)} [ L_fid(x,c) + ( ∑_j lambda_j * g_j^+(x,c) ) ],其中 g_j^+(x,c) = max( 0, g_j(x,c) )。
  4. S407-4(硬约束接受-拒绝/投影)
    • m_acc(x,c) = 1 若 ∀j, g_j(x,c) ≤ 0,否则 0;接受率 acc_rate = ( ∑ m_acc ) / N。
    • 约束投影:x' = Pi_C(x) = argmin_{z ∈ C} d(z,x),残差 res_cons = d(x',x)。
  5. S407-5(对齐阈值与效用)
    sim_embed(x,c) ≥ sim_min,util(x,c) ≥ util_min;不达标触发重采样或增益控制。
  6. S407-6(序贯 KL 正则)
    max_theta E_{x~p_theta(·|c)}[ R(x,c) ] - beta * KL( p_theta(·|c) || p_ref(·|c) ),beta ≥ 0。
  7. S407-7(到达时两口径)
    T_arr = ( 1 / c_ref ) * ( ∫ n_eff d ell ) 与 T_arr = ( ∫ ( n_eff / c_ref ) d ell ),
    delta_form = | ( 1 / c_ref ) * ( ∫ n_eff d ell ) - ( ∫ ( n_eff / c_ref ) d ell ) |。

V. 合成流程 M40-7(条件与可控闭环)


VI. 契约与断言 C40-7xx


VII. 实现绑定 I40-7*(接口原型与不变量)


VIII. 交叉引用


IX. 质量度量与风控

  1. 核心 SLI
    sim_embed_p50/p05/p95, acc_rate, res_cons, n_eff, latency_ms_p99, oom_rate, fairness_gap, delta_form, J。
  2. 常见风险与处置
    • CFG 过大导致模式崩塌 → 使用 w_cfg(t) 递增调度与早停;引入 KL 正则。
    • 规则过严导致低接受率 → 放宽软惩罚、改用投影、或分阶段约束。
    • 条件-样本错位 → 提升编码质量或更换嵌入基,设置 sim_min 自适应阈值。
    • 单位/量纲被破坏 → 在编码与后处理两处执行 check_dim 与范围夹持。
    • 子群偏差 → 启用再加权或映射对齐,发布 gap 与修正证据。
    • 时基/到达时漂移 → 重跑 annotate_time_arrival,审计 delta_form 与 J。

小结

本章建立了条件与可控生成的可执行规范:以 P407-* 公设保证条件显式、控制可审计与最小失真;以 S407-* 给出 CFG、拉格朗日惩罚与接受-投影等核心方程;通过 M40-7 流程将编码、引导、校核、对齐与清单发布闭环;以 C40-7xx 契约与 I40-7* 接口确保工程落地与跨卷一致。产出物与指标落至 manifest.synth.cond,支撑后续评估与发布冻结。

版权与许可(CC BY 4.0)

版权声明:除另有说明外,《能量丝理论》(含文本、图表、插图、符号与公式)的著作权由作者(“屠广林”先生)享有。
许可方式:本作品采用 Creative Commons 署名 4.0 国际许可协议(CC BY 4.0)进行许可;在注明作者与来源的前提下,允许为商业或非商业目的进行复制、转载、节选、改编与再分发。
署名格式(建议):作者:“屠广林”;作品:《能量丝理论》;来源:energyfilament.org;许可证:CC BY 4.0。

首次发布: 2025-11-11|当前版本:v5.1
协议链接:https://creativecommons.org/licenses/by/4.0/