目录 / 文档-技术白皮书 / 19-EFT.WP.Methods.SynthData v1.0
I. 适用范围与使用方式
- 汇总 C40-* 合同与运行策略卡,用于合成数据从训练、评估到发布与流式运行的全生命周期质量与合规闸门。
- 契约以“规则表达 + 阈值来源 + 严重级别 + 处置动作”四元组落盘,并映射到 manifest.synth.contracts.*。
- 交叉引用固定写法:“见《EFT.WP.Core.*》/《Methods.Cleaning》/《Methods.Imaging》/《Methods.CrossStats》 第x章 S/P/M/I…”。
II. 合同字段与命名
- 基本键
contracts[].id, name, expr, tol, severity ∈ {info, warn, block}, window, evidence, action_plan。 - 证据与度量
metrics.*(如 W1, MMD, FID, KID, covg, utility_gap, MI_risk), u(metric)(不确定度),alpha/power。 - 时基与到达时
tau_mono, ts, T_arr_form1, T_arr_form2, delta_form, offset/skew/J。 - 隐私预算
eps_total, delta_total, eps_budget, delta_budget。
III. 阈值口径与生成方法
- 参考基线与自适应阈值
基于参考集 D_ref 的重采样区间:CI_1−alpha(metric) = bootstrap(metric; B);发布阈值 tol_metric = q_{1−alpha} + margin。 - 贝叶斯后验阈值
p(metric ≤ tol | D) ≥ 1 − beta;后验分位用于合格判定,beta 记为二类风险预算。 - 差分隐私预算
会计聚合:(eps_total, delta_total) = privacy_accountant(events),合同为 eps_total ≤ eps_budget ∧ delta_total ≤ delta_budget。 - 到达时两口径
delta_form = | ( 1 / c_ref ) * ( ∫ n_eff d ell ) − ( ∫ ( n_eff / c_ref ) d ell ) | ≤ tol_Tarr。
IV. 契约库(规则表达与说明)
- C40-01x 模式与参照完整性
- C40-011 unique_pk:unique(pk) = true。
- C40-012 fk_integrity:foreign_key(parent.pk, child.fk) = true。
- C40-013 non_null:null_rate(field) ≤ tol_null。
- C40-014 dim_check:check_dim( y − f(x) ) = pass。
- C40-02x 时基与到达时一致
- C40-021 mono_time:non_decreasing(tau_mono) = true。
- C40-022 arrival_dual_forms:delta_form ≤ tol_Tarr。
- C40-023 sync_jitter:|offset| ≤ tol_off ∧ |skew| ≤ tol_skew ∧ J ≤ tol_J。
- C40-12x 保真(分布接近度)
- C40-121 wasserstein:W1(real, syn) ≤ tol_W1(声明地理/特征度量)。
- C40-122 mmd:MMD_k(real, syn) ≤ tol_MMD(声明核与带宽)。
- C40-123 fid_kid:FID ≤ tol_FID ∧ KID ≤ tol_KID(声明嵌入网络与层)。
- C40-124 coverage:covg(real|syn) ≥ covg_min(支撑集覆盖度定义显式)。
- C40-13x 效用(下游任务不劣性)
- C40-131 non_inferiority:utility_gap = metric_syn − metric_real ≥ −tol_gap。
- C40-132 power_min:power(design, effect_min, alpha) ≥ power_min(见 CrossStats 第8章)。
- C40-133 calibration_consistency:ECE_syn ≤ tol_ECE 或 |bias_syn| ≤ tol_bias。
- C40-14x 隐私与安全
- C40-141 dp_budget:eps_total ≤ eps_budget ∧ delta_total ≤ delta_budget。
- C40-142 membership_risk:MI_risk ≤ tol_MI(声明攻击族与评测集)。
- C40-143 k_anon:k_anonymity(QID) ≥ k_min 或 l_diversity ≥ l_min(适用于表格)。
- C40-144 linkability:linkability_score ≤ tol_link。
- C40-15x 偏差、公平与代表性
- C40-151 group_repr:| p_syn(g) − p_ref(g) | ≤ tol_repr,各 g 属于分组集合。
- C40-152 psi_drift:psi(ref, syn) ≤ tol_psi(人口稳定度指标)。
- C40-153 threshold_parity:| t_syn(g) − t_syn(g') | ≤ tol_tpar(若发布阈值跨组一致)。
- C40-16x 多模态一致与几何/物理约束
- C40-161 cross_modal_coherence:coherence_rules(bundle) = pass。
- C40-162 physical_laws:如 mass_balance_resid ≤ tol_res、energy_conserve_resid ≤ tol_res。
- C40-163 geometry_consistency:reproj_err ≤ tol_px(见 Imaging 第9章)。
- C40-17x 水印与溯源
- C40-171 watermark_detect:TPR ≥ tpr_min @ FPR ≤ fpr_max(声明检测器与阈值)。
- C40-172 provenance_hash:hash_sha256(blob) = manifest.signature.blob_hash。
- C40-18x 运行期 SLO(流式生成)
- C40-181 stability:rho = lambda_in / mu_eff < 1。
- C40-182 latency_p99:latency_ms_p99 ≤ target_p99。
- C40-183 drop_rate:drop_rate ≤ tol_drop。
- C40-184 drift_guard:W1_cur ≤ tol_W1_run ∧ psi_cur ≤ tol_psi_run(窗口化 Delta_t)。
V. 策略卡模板(适用于任何 C40-*)
- card.id:SC40-xxx。
- intent:合同目的与业务影响摘要。
- scope:数据域/模态/窗口 Delta_t/通道。
- inputs:所需度量、参考集、先验或模型。
- test:合同表达 expr 与阈值来源(bootstrap/posterior/policy_fixed)。
- tiers:info/warn/block 与对应阈值分段或置信下界。
- actions(自动化处置映射):
- info:记录、可视化、入湖。
- warn:重采样/重加权/参数回退、降权发布。
- block:熔断、回滚上版、触发人工审阅。
- runtime_hooks:是否联动 stream_synth 背压、alpha_spending、privacy_accountant。
- logging:TraceID、证据快照、seed、版本签名。
VI. 示例策略卡(精选)
- SC40-121(FID/KID 保真闸门)
- test:FID ≤ tol_FID ∧ KID ≤ tol_KID,tol_* 由 bootstrap(FID,KID; B) 的 q_{1−alpha} 给出。
- tiers:warn 当 tol_warn < metric ≤ tol_block; block 当 metric > tol_block。
- actions:warn→冻结阈值减半并重采样 1 次;block→回滚至上版 Engine.version−1。
- SC40-141(DP 预算守护)
- test:eps_total ≤ eps_budget ∧ delta_total ≤ delta_budget。
- actions:warn→暂停非必要采样;block→熔断训练与采样、增补预算审批。
- SC40-022(到达时两口径一致)
- test:delta_form ≤ tol_Tarr。
- actions:warn→上调积分步长并重对齐;block→隔离样本与路径段,标注不可发布。
- SC40-151(组代表性)
- test:| p_syn(g) − p_ref(g) | ≤ tol_repr 对所有 g。
- actions:warn→balance_distribution(reweight);block→拒绝发布并输出缺口报告。
- SC40-182(P99 延迟约束)
- test:latency_ms_p99 ≤ target_p99。
- actions:warn→限流 rate_limit↓ 与启用 auto_batcher;block→切换只读与离线队列。
VII. 组合合同与决策逻辑
- 默认门控:pass = ∧_{family} pass_family,其中 family ∈ {schema, timepath, fidelity, utility, privacy, bias, physics, watermark, runtime}。
- 优先级顺序(从高到低):privacy > runtime.safety > timepath > schema > physics > fidelity > utility > bias。
- 冲突裁决:当 utility 通过且 fidelity 轻微失败时,仅允许“降权发布”;当 privacy 失败时必须 block。
VIII. 清单映射与落盘
- manifest.synth.contracts.*:逐条记录 id, expr, tol, severity, result, evidence_ref。
- manifest.synth.metrics.*:对应度量与不确定度 u(metric),声明计算口径。
- manifest.synth.runtime.*:窗口化 Delta_t 的 rho, latency_ms_p99, drop_rate, drift。
- manifest.signature:hash_sha256(blob), signature, TraceID, seed。
IX. 实施要点与自动化挂钩
- 统一评估入口:assert_synth_contract(ds_syn, rules) 执行本附录合同全集的子集。
- 运行期钩子:与 stream_synth, detect_drift, privacy_accountant, emit_runtime_manifest 联动。
- 失败分层:warn 触发在线修复策略;block 触发版本回滚与人工复核队列。
X. 交叉引用
- 模式/清单与量纲:见《EFT.WP.Core.DataSpec v1.0》与《Methods.Cleaning v1.0》第4/10章。
- 到达时与路径:见《Methods.Cleaning v1.0》第6/12章。
- 成像约束与几何一致:见《Methods.Imaging v1.0》第9/14章。
- 统计阈值与功效/漂移:见《Methods.CrossStats v1.0》第5/6/7/8/14章。
版权与许可(CC BY 4.0)
版权声明:除另有说明外,《能量丝理论》(含文本、图表、插图、符号与公式)的著作权由作者(“屠广林”先生)享有。
许可方式:本作品采用 Creative Commons 署名 4.0 国际许可协议(CC BY 4.0)进行许可;在注明作者与来源的前提下,允许为商业或非商业目的进行复制、转载、节选、改编与再分发。
署名格式(建议):作者:“屠广林”;作品:《能量丝理论》;来源:energyfilament.org;许可证:CC BY 4.0。
首次发布: 2025-11-11|当前版本:v5.1
协议链接:https://creativecommons.org/licenses/by/4.0/