第1章 适用范围与依赖


I. 适用范围(Scope of Use)


II. 场景矩阵(Dataset Scenarios Matrix)

场景

典型来源

核心字段

关键指标

质量门

说明

Batch

分区文件/对象存储

record_id, ts, schema.*

完整率、去重率、p_dim

G1/G4/G8

版本化 Schema 与切分

Streaming

事件/消息队列

event_id, window, flags

延迟、丢失率、σ_y(τ)

G3/G5/G6

Exactly-Once/At-Least-Once 说明

Near-RT

共享内存/微批

ts_align, slice

抖动、Latency_P95

G5/G6

同步链路与水位策略

Hybrid

线上+离线

contract.snapshot

对齐一致性、Q_res

G1–G8

线上回流与离线校核

路径量统一口径:
T_arr = ( 1 / c_ref ) * ( ∫ n_eff d ell );或 T_arr = ( ∫ ( n_eff / c_ref ) d ell );
相位:Phi = ( 2π / λ_ref ) * ( ∫ n_eff d ell )。


III. 依赖与对齐(Dependencies & Alignment)


IV. 引用与版本(Citations & Versioning)


V. 合规前置(Compliance Prerequisites)


VI. 产出与接口(Outputs & Interfaces)

  1. 必交付:schema.json、contract.yaml、split.yaml、validate_report.json、check_dim_report.json、audit.jsonl、report_manifest.yaml、SIGNATURE.asc。
  2. 接口(建议)
    • I81-dataset_ingest(package) -> validate_report.json
    • I82-dataset_validate(gates[]) -> report
    • I83-dataset_manifest_export(fmt) -> report_manifest.yaml
    • I84-dataset_split(plan.yaml) -> split_manifest.json
    • I89-dataset_publish(channel) -> release_id

VII. 执行勾选清单(Checklist)