目录文档-技术白皮书19-EFT.WP.Methods.SynthData v1.0

第3章 数据模型与模式绑定(Schema/SRef)


I. 范围与对象

  1. 目标
    • 建立合成数据的统一模式 SRef 与注册体系 schema_reg,完成从异构 D_real 到规范化 D_ref 的模式绑定。
    • 定义字段级与关系级的约束(键、单位与量纲、可空性、枚举、范围、分辨率、时间/路径语义),为后续生成、评估与发布提供唯一口径。
  2. 输入
    • 源模式与样本:schemas_raw = {schema_i}, D_real。
    • 约束与策略:Rules, policy.units, policy.nulls, policy.enums。
    • 时间/路径锚定:tau_mono, ts, gamma(ell)。
  3. 输出
    • 统一模式 SRef、别名映射 alias_map、单位/量纲声明 unit/dim、关系与索引集 {pk,fk,idx_k}。
    • 模式绑定产物 D_ref、校核报告 report_schema、清单 manifest.synth.schema.*。
  4. 边界与假设
    • 不接受隐式字段推断;衍生字段需发布谱系 lineage 与 hash_sha256(blob)。
    • 涉及到达时量的字段必须具备两口径与 delta_form(见第2章 P402-5)。

II. 名词与变量


III. 公设 P403-*(Schema/SRef 不可协商项)


IV. 最小方程 S403-*(Schema/SRef 必要式)

  1. S403-1(模式覆盖度)
    • cov_schema = | F_real ∩ F_sref | / | F_sref |
    • cov_req = | F_required ∩ F_real | / | F_required |,要求 cov_req ≥ cov_req_min。
  2. S403-2(单位仿射转换)
    x_SI = a * x_raw + b,其中 a,b 由 unit(x_raw) -> unit(x_SI) 决定;断言 check_dim( x_SI - ( a * x_raw + b ) ) = true。
  3. S403-3(类型转换损失)
    loss_cast = E[ | x - cast( x ; dtype_src -> dtype_dst ) | ],要求 loss_cast ≤ tol_cast。
  4. S403-4(时间映射与抖动)
    ts = map_tau_to_ts( tau_mono; offset, skew ),并测 J(抖动)。
  5. S403-5(到达时两口径差)
    delta_form = | ( 1 / c_ref ) * ( ∫ n_eff d ell ) - ( ∫ ( n_eff / c_ref ) d ell ) |。
  6. S403-6(参照完整性)
    orphan_rate = 1 - ( | join(parent.pk = child.fk) | / | child | ),要求 orphan_rate = 0。
  7. S403-7(索引选择性)
    sel(idx_k) = 1 - ( | distinct(idx_k) | / | D_ref | ),用于评估查询与流式联接成本。

V. 合成流程 M40-3(模式绑定)


VI. 契约与断言 C40-31x(Schema/SRef)


VII. 实现绑定 I40-*(接口原型与不变量)


VIII. 交叉引用


IX. 质量度量与风控

  1. 指标集
    cov_schema, cov_req, loss_cast, orphan_rate, enum_drift, schema_bind_latency_p99, timing.{offset,skew,J}, arrival.delta_form。
  2. 风控策略
    • 覆盖不足:阻断发布,触发字段收敛与数据补采。
    • 参照失败:回滚本次绑定并进入隔离区;生成孤儿修复工单。
    • 单位/量纲失败:拒绝后续生成环节,要求修正 unit_map。
    • 到达时超阈:复核 gamma(ell) 与 n_eff/c_ref 口径,必要时重算。
    • 多模态不一致:降级为单模态发布或延后发布并出具对齐计划。

小结


版权与许可(CC BY 4.0)

版权声明:除另有说明外,《能量丝理论》(含文本、图表、插图、符号与公式)的著作权由作者(“屠广林”先生)享有。
许可方式:本作品采用 Creative Commons 署名 4.0 国际许可协议(CC BY 4.0)进行许可;在注明作者与来源的前提下,允许为商业或非商业目的进行复制、转载、节选、改编与再分发。
署名格式(建议):作者:“屠广林”;作品:《能量丝理论》;来源:energyfilament.org;许可证:CC BY 4.0。

首次发布: 2025-11-11|当前版本:v5.1
协议链接:https://creativecommons.org/licenses/by/4.0/