目录文档-技术白皮书52-数据集卡 Template v1.0

第1章 适用范围与依赖


I. 适用范围(Scope of Use)


II. 场景矩阵(Dataset Scenarios Matrix)

场景

典型来源

核心字段

关键指标

质量门

说明

Batch

分区文件/对象存储

record_id, ts, schema.*

完整率、去重率、p_dim

G1/G4/G8

版本化 Schema 与切分

Streaming

事件/消息队列

event_id, window, flags

延迟、丢失率、σ_y(τ)

G3/G5/G6

Exactly-Once/At-Least-Once 说明

Near-RT

共享内存/微批

ts_align, slice

抖动、Latency_P95

G5/G6

同步链路与水位策略

Hybrid

线上+离线

contract.snapshot

对齐一致性、Q_res

G1–G8

线上回流与离线校核

路径量统一口径:
T_arr = ( 1 / c_ref ) * ( ∫ n_eff d ell );或 T_arr = ( ∫ ( n_eff / c_ref ) d ell );
相位:Phi = ( 2π / λ_ref ) * ( ∫ n_eff d ell )。


III. 依赖与对齐(Dependencies & Alignment)


IV. 引用与版本(Citations & Versioning)


V. 合规前置(Compliance Prerequisites)


VI. 产出与接口(Outputs & Interfaces)

  1. 必交付:schema.json、contract.yaml、split.yaml、validate_report.json、check_dim_report.json、audit.jsonl、report_manifest.yaml、SIGNATURE.asc。
  2. 接口(建议)
    • I81-dataset_ingest(package) -> validate_report.json
    • I82-dataset_validate(gates[]) -> report
    • I83-dataset_manifest_export(fmt) -> report_manifest.yaml
    • I84-dataset_split(plan.yaml) -> split_manifest.json
    • I89-dataset_publish(channel) -> release_id

VII. 执行勾选清单(Checklist)


版权与许可(CC BY 4.0)

版权声明:除另有说明外,《能量丝理论》(含文本、图表、插图、符号与公式)的著作权由作者(“屠广林”先生)享有。
许可方式:本作品采用 Creative Commons 署名 4.0 国际许可协议(CC BY 4.0)进行许可;在注明作者与来源的前提下,允许为商业或非商业目的进行复制、转载、节选、改编与再分发。
署名格式(建议):作者:“屠广林”;作品:《能量丝理论》;来源:energyfilament.org;许可证:CC BY 4.0。

首次发布: 2025-11-11|当前版本:v5.1
协议链接:https://creativecommons.org/licenses/by/4.0/