目录 / 文档-技术白皮书 / 19-EFT.WP.Methods.SynthData v1.0
一句话目标:将多源合成样本组装为可发布数据集,完成去重、约束校核、水印嵌入、溯源固化与清单签名,形成可审计与可回退的发布闭环。
I. 范围与对象
- 输入
- ds_syn(候选合成样本,可多模态)
- SynthSpec(模式与约束)
- training_refs(训练/参考集索引,用于泄漏/近邻排查)
- policy.release(发布策略、阈值、许可与合规模板)
- 输出
- ds_pub(通过契约的发布数据集)
- manifest.synth(含 metrics.*, contracts.*, TraceID, seed/rng, signature)
- 审计日志与回退标签
- 约束
参照完整性、唯一性、物理/量纲守恒、到达时一致、隐私预算与水印可检出率
II. 名词与变量
- 键与标识:pk, rid, TraceID, bundle_id, version
- 距离与哈希:d(·,·), pHash(·), hash_sha256(blob)
- 近邻与嵌入:phi(x), z = phi(x), NN_k(z; D),阈值 tau_dup, tau_nn
- 水印:wm_key, embed(x, wm_key) -> x_wm, 检测统计量 T_wm,阈值 tau_wm
- 溯源与签名:lineage_dag = (V,E), signature = Sign(priv, hash)
- 到达时:T_arr 两口径与 delta_form
- 清单键:manifest.synth.{spec,metrics,contracts,timing,provenance,license,signature}
III. 公设 P413-*
- P413-1(去重口径统一):去重一律在统一嵌入 phi 与度量 d 上执行,并辅以哈希与规则双轨校核。
- P413-2(训练泄漏零容忍):任何 x' ∈ ds_syn 满足与 training_refs 的近邻/哈希相似性越界即剔除或重采。
- P413-3(水印稳健可验):发布集必须嵌入可验证水印,满足可检出率与低误报双下限。
- P413-4(溯源可追溯):每个样本必须关联 TraceID 与 lineage_dag,并对 bundle 做整体签名。
- P413-5(到达时一致):涉时/路径数据在组装后再次验证 T_arr 两口径与 delta_form。
- P413-6(量纲守恒):在后处理(归一、量化、裁剪)后执行 check_dim(expr)。
- P413-7(复现性):seed/rng 与 engine/version 可重放,得到统计等价的 ds_pub。
IV. 最小方程 S413-*
- S413-1(近重复判据)
- 嵌入判据:dup(z_i, z_j) = 1{ d( z_i, z_j ) ≤ tau_dup }(如 d = || z_i - z_j ||_2 或 1 - cos(z_i,z_j))
- 哈希判据(图像/音频):dup_h(x_i, x_j) = 1{ ham( pHash(x_i), pHash(x_j) ) ≤ h_max }
- 文本判据:dup_t(s_i,s_j) = 1{ Jaccard( shingle(s_i), shingle(s_j) ) ≥ j_min }
- S413-2(训练近邻泄漏分数)
- leak(x') = 1{ min_{x ∈ training_refs} d( phi(x'), phi(x) ) ≤ tau_nn }
- 或攻击器分数 score_MI(x'),判据 score_MI(x') ≥ tau_MI。
- S413-3(水印检测)
- 相关统计:T_wm(x_wm, wm_key) = corr( f(x_wm), s(wm_key) ),判定 T_wm ≥ tau_wm
- 误报控制:FPR_wm ≤ alpha_wm;漏检控制:FNR_wm ≤ beta_wm。
- S413-4(到达时两口径与差异)
- T_arr = ( 1 / c_ref ) * ( ∫ n_eff d ell );T_arr = ( ∫ ( n_eff / c_ref ) d ell );
- delta_form = | ( 1 / c_ref ) * ( ∫ n_eff d ell ) - ( ∫ ( n_eff / c_ref ) d ell ) |。
- S413-5(清单签名)
hash = hash_sha256( bundle );signature = Sign( priv_key, hash );验证 Verify( pub_key, hash, signature ) = true。
V. 合成流程 M40-13(组装→后处理→发布)
- 就绪条件
冻结 SynthSpec、phi、policy.release 与许可模板;加载 training_refs 索引。 - 约束清洗与归一
执行 enforce_constraints(ds_syn, rules):唯一性、外键、范围/枚举、物理守恒与 check_dim。 - 去重与泄漏排查
- 计算 z = phi(x) 并基于 d 去重;
- 计算哈希/分词 Jaccard 双轨校核;
- 对照 training_refs 执行 leak(x') 与 score_MI(x'),越界样本剔除或重采。
- 水印与兼容性测试
执行 x_wm = embed(x, wm_key);随机抽检估计 T_wm 分布,校核 FPR/FNR 与任务降级上限。 - 溯源与到达时固化
- 写入 TraceID、seed/rng、engine/version、lineage_dag;
- 对涉时样本写入 offset/skew/J, T_arr 两口径与 delta_form。
- 契约评估与回退
依据 C40-13xx 评估:若失败,触发再加权/再采样/水印参数调整或回退至上一个合格标签。 - 冻结与签名
打包 ds_pub 与 manifest.synth;生成 hash 与 signature;发布只读标签与审计记录。
VI. 契约与断言 C40-13xx
- C40-1301(重复率上限):dup_rate = ( #pairs dup ) / N_pairs ≤ tol_dup_rate 且 max_cluster_size ≤ c_max。
- C40-1302(训练泄漏):P( leak(x') ) ≤ tol_leak 且 P( score_MI ≥ tau_MI ) ≤ tol_MI。
- C40-1303(水印可检与稳健):TPR_wm ≥ tpr_min,FPR_wm ≤ fpr_max,且 | delta_down_wm | ≤ tol_down_wm。
- C40-1304(清单完备):complete(manifest.synth)=1(必须含 spec, metrics, contracts, timing, provenance, license, signature)。
- C40-1305(参照完整性):foreign_key(ds_pub)=true 且 unique(pk)=true。
- C40-1306(到达时一致):delta_form ≤ tol_Tarr,|offset| ≤ off_max,J ≤ J_max。
- C40-1307(复现性):reproducible(seed)=true,两次构建的指标差 ≤ tol_reprod。
- C40-1308(许可与合规):license ∈ allowlist 且外部依赖闭包可验证。
VII. 实现绑定 I40-13*(接口原型与不变量)
- enforce_constraints(ds_syn, rules) -> ds_syn'
- deduplicate(ds, spec) -> {ds', report}(嵌入+哈希+文本三路;report 含 dup_rate 与聚类摘要)
- check_training_leak(ds', training_refs, phi, thresholds) -> {ds'', leak_report}
- watermark_and_provenance(ds'', wm_key, scheme) -> {ds_wm, wm_report}
- timepath_hardening(ds_wm, sync_ref) -> ds_wm'(写入 offset/skew/J, T_arr, delta_form)
- emit_release_manifest(bundle, policy) -> manifest.synth
- freeze_release_synth(ds_wm', manifest, tag) -> {artifact, signature}
- 不变量:phi/spec 冻结;sum(weights)/N ≈ 1;delta_form ≤ tol_Tarr;FPR_wm ≤ fpr_max;foreign_key/unique 通过。
VIII. 交叉引用
- 见《EFT.WP.Methods.Cleaning v1.0》 第9章(去重与参照完整性)、第10章(契约与冻结)。
- 见《EFT.WP.Methods.CrossStats v1.0》 第7章(漂移与对齐)、第14章(SLO 与审计)。
- 见本卷第12章(保真与效用评估)以获取发布前指标与不确定度。
- 见《EFT.WP.Methods.Imaging v1.0》 附录C/D(成像清单与质量度量)用于多模态发布时的对齐口径。
IX. 质量度量与风控
- SLI
dup_rate, leak_rate, TPR_wm/FPR_wm, |delta_down_wm|, foreign_key_fail, manifest_missing, latency_ms_p99, delta_form。 - 风控策略
- dup_rate 越界:放宽嵌入聚类边界的最小间隔或提升阈值严格性并触发再采。
- leak_rate 越界:加大 tau_nn 安全裕度或更换生成器/数据增强。
- 水印不合格:调整 wm_key/scheme 或幅度,验证对下游影响后重试。
- 清单不全或签名失败:阻断发布,补齐字段并重签。
- 到达时超差:执行 timepath_hardening 并重新评估。
小结
- 本章定义了去重、泄漏防护、水印、溯源与清单签名的统一口径(P413-*),给出可计算判据(S413-*),
- 以 M40-13 完成“就绪→约束→去重/泄漏→水印→溯源→契约→冻结”的发布闭环,
- 以 C40-13xx 作为发布闸门与合规锚点,
- 以 I40-13* 固化工程接口与不变量,确保 ds_pub 可审计、可回退、可复现。
版权与许可(CC BY 4.0)
版权声明:除另有说明外,《能量丝理论》(含文本、图表、插图、符号与公式)的著作权由作者(“屠广林”先生)享有。
许可方式:本作品采用 Creative Commons 署名 4.0 国际许可协议(CC BY 4.0)进行许可;在注明作者与来源的前提下,允许为商业或非商业目的进行复制、转载、节选、改编与再分发。
署名格式(建议):作者:“屠广林”;作品:《能量丝理论》;来源:energyfilament.org;许可证:CC BY 4.0。
首次发布: 2025-11-11|当前版本:v5.1
协议链接:https://creativecommons.org/licenses/by/4.0/