目录 / 文档-技术白皮书 / 19-EFT.WP.Methods.SynthData v1.0
I. 范围与对象
- 目标
- 建立合成数据的统一模式 SRef 与注册体系 schema_reg,完成从异构 D_real 到规范化 D_ref 的模式绑定。
- 定义字段级与关系级的约束(键、单位与量纲、可空性、枚举、范围、分辨率、时间/路径语义),为后续生成、评估与发布提供唯一口径。
- 输入
- 源模式与样本:schemas_raw = {schema_i}, D_real。
- 约束与策略:Rules, policy.units, policy.nulls, policy.enums。
- 时间/路径锚定:tau_mono, ts, gamma(ell)。
- 输出
- 统一模式 SRef、别名映射 alias_map、单位/量纲声明 unit/dim、关系与索引集 {pk,fk,idx_k}。
- 模式绑定产物 D_ref、校核报告 report_schema、清单 manifest.synth.schema.*。
- 边界与假设
- 不接受隐式字段推断;衍生字段需发布谱系 lineage 与 hash_sha256(blob)。
- 涉及到达时量的字段必须具备两口径与 delta_form(见第2章 P402-5)。
II. 名词与变量
- 模式与注册:SRef(canonical schema), schema_reg(registry), alias_map : name_src -> name_ref。
- 字段元数据:name, role, dtype, unit(x), dim(x), nullable ∈ {0,1}, enum, range=[lo,hi], resolution Δx。
- 键与关系:pk, fk(parent.child), idx_k, cardinality ∈ {1:1, 1:N, N:M}。
- 时间与路径:ts, tau_mono, T_arr, gamma(ell), offset/skew/J。
- 保留与追溯:rid, sid, pid, TraceID, signature。
- 多模态绑定:bundle = {tabular, image, text, audio, graph}, view_id。
III. 公设 P403-*(Schema/SRef 不可协商项)
- P403-1(唯一口径):SRef 是字段与关系的单一事实源(SSOT),任何实现以其为准并版本化。
- P403-2(键与关系):unique(pk),foreign_key 完整,无孤儿记录;cardinality 明示且受约束。
- P403-3(单位与量纲):进入计算的字段均声明 unit(x), dim(x) 并通过 check_dim(expr)。
- P403-4(时间与到达时):时间窗口在 tau_mono 评估,对外以 ts 发布;到达时字段强制两口径与 delta_form。
- P403-5(命名与冲突):冲突名禁用:T_fil 与 T_trans 不可混用;n 与 n_eff 严格区分;别名经 alias_map 统一。
- P403-6(可空与缺失):缺失以 m ∈ {0,1} 标注,不允许隐式填值(见第7章)。
- P403-7(多模态一致):多视图 view_id 对齐,跨模态字段遵循共享主键或显式映射。
- P403-8(可追溯):lineage、hash_sha256(blob) 与 signature 发布到清单。
- P403-9(兼容与闭包):SRef 版本变更满足向后兼容闭包或提供迁移映射。
- P403-10(合规前置):包含敏感字段时必须在模式层完成去识别/最小化(见第10章隐私)。
IV. 最小方程 S403-*(Schema/SRef 必要式)
- S403-1(模式覆盖度)
- cov_schema = | F_real ∩ F_sref | / | F_sref |
- cov_req = | F_required ∩ F_real | / | F_required |,要求 cov_req ≥ cov_req_min。
- S403-2(单位仿射转换)
x_SI = a * x_raw + b,其中 a,b 由 unit(x_raw) -> unit(x_SI) 决定;断言 check_dim( x_SI - ( a * x_raw + b ) ) = true。 - S403-3(类型转换损失)
loss_cast = E[ | x - cast( x ; dtype_src -> dtype_dst ) | ],要求 loss_cast ≤ tol_cast。 - S403-4(时间映射与抖动)
ts = map_tau_to_ts( tau_mono; offset, skew ),并测 J(抖动)。 - S403-5(到达时两口径差)
delta_form = | ( 1 / c_ref ) * ( ∫ n_eff d ell ) - ( ∫ ( n_eff / c_ref ) d ell ) |。 - S403-6(参照完整性)
orphan_rate = 1 - ( | join(parent.pk = child.fk) | / | child | ),要求 orphan_rate = 0。 - S403-7(索引选择性)
sel(idx_k) = 1 - ( | distinct(idx_k) | / | D_ref | ),用于评估查询与流式联接成本。
V. 合成流程 M40-3(模式绑定)
- 就绪
汇总 schemas_raw 与样本;冻结保留键 {rid,sid,pid,TraceID};建立 alias_map 草案;收集 unit/dim/enum/range。 - 设计 SRef
为每个字段定义 {role,dtype,unit,dim,nullable,enum,range,resolution};声明 {pk,fk,idx_k,cardinality};标注时间/路径语义与到达时字段。 - 绑定
执行 standardize_names 与 repair_units;建立 m 掩码;类型与单位归一;计算 ts 与 T_arr 两口径。 - 校核
评估 cov_schema, cov_req, loss_cast, orphan_rate, delta_form, offset/skew/J;运行 check_dim 与键/关系断言。 - 落盘
生成 D_ref、report_schema、manifest.synth.schema(含版本、索引、时基、到达时、度量与签名)。 - 版本与迁移
若版本升级,生成 migrate_map(v_k -> v_{k+1}) 与兼容性证明;记录回退点与审计轨。
VI. 契约与断言 C40-31x(Schema/SRef)
- C40-311(覆盖度):cov_req ≥ cov_req_min 且 cov_schema ≥ cov_schema_min。
- C40-312(唯一与参照):unique(pk)=true,foreign_key 全通过,orphan_rate=0。
- C40-313(单位与量纲):check_dim(expr)=true,unit_map 完备;loss_cast ≤ tol_cast。
- C40-314(时间/到达时):non_decreasing(tau_mono),delta_form ≤ tol_Tarr,J ≤ J_max。
- C40-315(命名冲突):forbid_conflict_names = true,alias_map 全覆盖且无二义性。
- C40-316(多模态一致):bundle 内 view_id 一致,跨模态 join 通过契约测试。
- C40-317(追溯与签名):manifest.synth.schema.signature 有效,hash_sha256(blob) 与 TraceID 存档。
VII. 实现绑定 I40-*(接口原型与不变量)
- I40-31 design_synth_spec(schema, goals, constraints) -> SynthSpec
- I40-32 register_schema(SRef) -> schema_id(版本化、依赖闭包)
- I40-33 standardize_names(ds, registry) -> ds'
- I40-34 repair_units(ds, policy) -> report_units
- I40-35 validate_dataset(ds, SRef, rules) -> report_schema(键/关系/量纲/时间/到达时/命名冲突)
- I40-36 bind_modalities(bundle, SRef) -> bundle'(跨模态对齐与键一致)
- I40-37 migrate_schema(ds, from_ver, to_ver, migrate_map) -> ds'
- I40-38 emit_schema_manifest(SRef, report) -> manifest.synth.schema
- 不变量:unique(schema_id);alias_map 无环且单射;sum(missing_mask) = count_nullables + violations;loss_cast ≤ tol_cast;delta_form ≤ tol_Tarr。
VIII. 交叉引用
- 见《Methods.Cleaning v1.0》 第3章(标准输入与模式绑定)、第4章(单位与量纲)、第5章(时间轴与同步)、第6章(路径与到达时)、第10章(发布冻结)。
- 见《Methods.Imaging v1.0》 第9章(几何标定与配准,跨模态键的一致性)。
- 见《Methods.CrossStats v1.0》 第7章(漂移与对齐,枚举/分布漂移下的模式稳定性度量)。
- 见《EFT.WP.Core.DataSpec v1.0》 与《Core.Threads v1.0》 的键、索引与执行图约束。
IX. 质量度量与风控
- 指标集
cov_schema, cov_req, loss_cast, orphan_rate, enum_drift, schema_bind_latency_p99, timing.{offset,skew,J}, arrival.delta_form。 - 风控策略
- 覆盖不足:阻断发布,触发字段收敛与数据补采。
- 参照失败:回滚本次绑定并进入隔离区;生成孤儿修复工单。
- 单位/量纲失败:拒绝后续生成环节,要求修正 unit_map。
- 到达时超阈:复核 gamma(ell) 与 n_eff/c_ref 口径,必要时重算。
- 多模态不一致:降级为单模态发布或延后发布并出具对齐计划。
小结
- 本章给出 SRef 的设计与绑定闭环:以 P403-* 约束不变,以 S403-* 定义可计算指标,以 M40-3、C40-31x、I40-* 实现“就绪→绑定→校核→落盘→版本迁移”的标准流程。
- 产出物包括:规范化数据 D_ref、SRef、alias_map、report_schema 与 manifest.synth.schema.*,为后续生成引擎与合规发布提供坚实基座。
版权与许可(CC BY 4.0)
版权声明:除另有说明外,《能量丝理论》(含文本、图表、插图、符号与公式)的著作权由作者(“屠广林”先生)享有。
许可方式:本作品采用 Creative Commons 署名 4.0 国际许可协议(CC BY 4.0)进行许可;在注明作者与来源的前提下,允许为商业或非商业目的进行复制、转载、节选、改编与再分发。
署名格式(建议):作者:“屠广林”;作品:《能量丝理论》;来源:energyfilament.org;许可证:CC BY 4.0。
首次发布: 2025-11-11|当前版本:v5.1
协议链接:https://creativecommons.org/licenses/by/4.0/