目录文档-技术白皮书(V5.05)19-EFT.WP.Methods.SynthData v1.0

第7章 条件与可控生成(Prompt/CFG/规则)


I. 范围与对象

  1. 目标
    • 定义条件化与可控生成的统一口径:x ~ p_model(x | c; theta),其中 c 可为文本 prompt、结构化条件、数值边界或规则集合。
    • 给出 CFG(classifier-free guidance)、规则硬约束与软惩罚的协同机制;在不破坏量纲/单位与物理约束的前提下实现可解释控制。
    • 将条件对齐、规则满足与下游效用纳入契约与清单:manifest.synth.cond.*。
  2. 输入
    生成引擎 engine(theta)(见第5章)、条件集 Cset、规则与约束 Rules = { g_j(x,c) ≤ 0 }、参考分布或面板 ref、时基与到达时口径、SLO 与阈值。
  3. 输出
    条件样本 D_syn(c)、对齐报告与接受率 acc_rate(c)、控制强度与调度 w_cfg(t)、契约评估报告、manifest.synth.cond。
  4. 适用边界
    适用于表格、时序、图像/音频/文本与多模态;涉及物理链路者需与第6章共同执行(写入 T_arr, delta_form)。

II. 名词与变量


III. 公设 P407-*


IV. 最小方程 S407-*

  1. S407-1(条件生成基式)
    x ~ p_model( x | c; theta ),目标最小化 D( p_model(x|c) || p_ref(x|c) ),D ∈ {W1, KL, MMD}。
  2. S407-2(CFG 通用写法)
    记引导场 s_cond(z,t) = s_theta(z,t|c),无条件场 s_uncond(z,t) = s_theta(z,t|∅),则
    s_guided(z,t) = s_uncond(z,t) + w_cfg(t) * ( s_cond(z,t) - s_uncond(z,t) )。
  3. S407-3(软惩罚与拉格朗日)
    min_theta E_{c} E_{x~p_theta(·|c)} [ L_fid(x,c) + ( ∑_j lambda_j * g_j^+(x,c) ) ],其中 g_j^+(x,c) = max( 0, g_j(x,c) )。
  4. S407-4(硬约束接受-拒绝/投影)
    • m_acc(x,c) = 1 若 ∀j, g_j(x,c) ≤ 0,否则 0;接受率 acc_rate = ( ∑ m_acc ) / N。
    • 约束投影:x' = Pi_C(x) = argmin_{z ∈ C} d(z,x),残差 res_cons = d(x',x)。
  5. S407-5(对齐阈值与效用)
    sim_embed(x,c) ≥ sim_min,util(x,c) ≥ util_min;不达标触发重采样或增益控制。
  6. S407-6(序贯 KL 正则)
    max_theta E_{x~p_theta(·|c)}[ R(x,c) ] - beta * KL( p_theta(·|c) || p_ref(·|c) ),beta ≥ 0。
  7. S407-7(到达时两口径)
    T_arr = ( 1 / c_ref ) * ( ∫ n_eff d ell ) 与 T_arr = ( ∫ ( n_eff / c_ref ) d ell ),
    delta_form = | ( 1 / c_ref ) * ( ∫ n_eff d ell ) - ( ∫ ( n_eff / c_ref ) d ell ) |。

V. 合成流程 M40-7(条件与可控闭环)


VI. 契约与断言 C40-7xx


VII. 实现绑定 I40-7*(接口原型与不变量)


VIII. 交叉引用


IX. 质量度量与风控

  1. 核心 SLI
    sim_embed_p50/p05/p95, acc_rate, res_cons, n_eff, latency_ms_p99, oom_rate, fairness_gap, delta_form, J。
  2. 常见风险与处置
    • CFG 过大导致模式崩塌 → 使用 w_cfg(t) 递增调度与早停;引入 KL 正则。
    • 规则过严导致低接受率 → 放宽软惩罚、改用投影、或分阶段约束。
    • 条件-样本错位 → 提升编码质量或更换嵌入基,设置 sim_min 自适应阈值。
    • 单位/量纲被破坏 → 在编码与后处理两处执行 check_dim 与范围夹持。
    • 子群偏差 → 启用再加权或映射对齐,发布 gap 与修正证据。
    • 时基/到达时漂移 → 重跑 annotate_time_arrival,审计 delta_form 与 J。

小结

本章建立了条件与可控生成的可执行规范:以 P407-* 公设保证条件显式、控制可审计与最小失真;以 S407-* 给出 CFG、拉格朗日惩罚与接受-投影等核心方程;通过 M40-7 流程将编码、引导、校核、对齐与清单发布闭环;以 C40-7xx 契约与 I40-7* 接口确保工程落地与跨卷一致。产出物与指标落至 manifest.synth.cond,支撑后续评估与发布冻结。

版权与许可:除另有说明外,《能量丝理论》(含文本、图表、插图、符号与公式)的著作权由作者(屠广林)享有。
许可方式(CC BY 4.0):在注明作者与来源的前提下,允许复制、转载、节选、改编与再分发。
署名格式(建议):作者:屠广林|作品:《能量丝理论》|来源:energyfilament.org|许可证:CC BY 4.0
验证召集: 作者独立自费、无雇主无资助;下一阶段将优先在最愿意公开讨论、公开复现、公开挑错的环境中推进落地,不限国家。欢迎各国媒体与同行抓住窗口组织验证,并与我们联系。
版本信息: 首次发布:2025-11-11 | 当前版本:v6.0+5.05