目录文档-技术白皮书19-EFT.WP.Methods.SynthData v1.0

第13章 组装、后处理与发布(去重/水印/溯源/清单)


一句话目标:将多源合成样本组装为可发布数据集,完成去重、约束校核、水印嵌入、溯源固化与清单签名,形成可审计与可回退的发布闭环。


I. 范围与对象

  1. 输入
    • ds_syn(候选合成样本,可多模态)
    • SynthSpec(模式与约束)
    • training_refs(训练/参考集索引,用于泄漏/近邻排查)
    • policy.release(发布策略、阈值、许可与合规模板)
  2. 输出
    • ds_pub(通过契约的发布数据集)
    • manifest.synth(含 metrics.*, contracts.*, TraceID, seed/rng, signature)
    • 审计日志与回退标签
  3. 约束
    参照完整性、唯一性、物理/量纲守恒、到达时一致、隐私预算与水印可检出率

II. 名词与变量


III. 公设 P413-*


IV. 最小方程 S413-*

  1. S413-1(近重复判据)
    • 嵌入判据:dup(z_i, z_j) = 1{ d( z_i, z_j ) ≤ tau_dup }(如 d = || z_i - z_j ||_2 或 1 - cos(z_i,z_j))
    • 哈希判据(图像/音频):dup_h(x_i, x_j) = 1{ ham( pHash(x_i), pHash(x_j) ) ≤ h_max }
    • 文本判据:dup_t(s_i,s_j) = 1{ Jaccard( shingle(s_i), shingle(s_j) ) ≥ j_min }
  2. S413-2(训练近邻泄漏分数)
    • leak(x') = 1{ min_{x ∈ training_refs} d( phi(x'), phi(x) ) ≤ tau_nn }
    • 或攻击器分数 score_MI(x'),判据 score_MI(x') ≥ tau_MI。
  3. S413-3(水印检测)
    • 相关统计:T_wm(x_wm, wm_key) = corr( f(x_wm), s(wm_key) ),判定 T_wm ≥ tau_wm
    • 误报控制:FPR_wm ≤ alpha_wm;漏检控制:FNR_wm ≤ beta_wm。
  4. S413-4(到达时两口径与差异)
    • T_arr = ( 1 / c_ref ) * ( ∫ n_eff d ell );T_arr = ( ∫ ( n_eff / c_ref ) d ell );
    • delta_form = | ( 1 / c_ref ) * ( ∫ n_eff d ell ) - ( ∫ ( n_eff / c_ref ) d ell ) |。
  5. S413-5(清单签名)
    hash = hash_sha256( bundle );signature = Sign( priv_key, hash );验证 Verify( pub_key, hash, signature ) = true。

V. 合成流程 M40-13(组装→后处理→发布)

  1. 就绪条件
    冻结 SynthSpec、phi、policy.release 与许可模板;加载 training_refs 索引。
  2. 约束清洗与归一
    执行 enforce_constraints(ds_syn, rules):唯一性、外键、范围/枚举、物理守恒与 check_dim。
  3. 去重与泄漏排查
    • 计算 z = phi(x) 并基于 d 去重;
    • 计算哈希/分词 Jaccard 双轨校核;
    • 对照 training_refs 执行 leak(x') 与 score_MI(x'),越界样本剔除或重采。
  4. 水印与兼容性测试
    执行 x_wm = embed(x, wm_key);随机抽检估计 T_wm 分布,校核 FPR/FNR 与任务降级上限。
  5. 溯源与到达时固化
    • 写入 TraceID、seed/rng、engine/version、lineage_dag;
    • 对涉时样本写入 offset/skew/J, T_arr 两口径与 delta_form。
  6. 契约评估与回退
    依据 C40-13xx 评估:若失败,触发再加权/再采样/水印参数调整或回退至上一个合格标签。
  7. 冻结与签名
    打包 ds_pub 与 manifest.synth;生成 hash 与 signature;发布只读标签与审计记录。

VI. 契约与断言 C40-13xx


VII. 实现绑定 I40-13*(接口原型与不变量)


VIII. 交叉引用


IX. 质量度量与风控

  1. SLI
    dup_rate, leak_rate, TPR_wm/FPR_wm, |delta_down_wm|, foreign_key_fail, manifest_missing, latency_ms_p99, delta_form。
  2. 风控策略
    • dup_rate 越界:放宽嵌入聚类边界的最小间隔或提升阈值严格性并触发再采。
    • leak_rate 越界:加大 tau_nn 安全裕度或更换生成器/数据增强。
    • 水印不合格:调整 wm_key/scheme 或幅度,验证对下游影响后重试。
    • 清单不全或签名失败:阻断发布,补齐字段并重签。
    • 到达时超差:执行 timepath_hardening 并重新评估。

小结


版权与许可(CC BY 4.0)

版权声明:除另有说明外,《能量丝理论》(含文本、图表、插图、符号与公式)的著作权由作者(“屠广林”先生)享有。
许可方式:本作品采用 Creative Commons 署名 4.0 国际许可协议(CC BY 4.0)进行许可;在注明作者与来源的前提下,允许为商业或非商业目的进行复制、转载、节选、改编与再分发。
署名格式(建议):作者:“屠广林”;作品:《能量丝理论》;来源:energyfilament.org;许可证:CC BY 4.0。

首次发布: 2025-11-11|当前版本:v5.1
协议链接:https://creativecommons.org/licenses/by/4.0/