目录文档-技术白皮书(V5.05)52-数据集卡 Template v1.0

第1章 适用范围与依赖


I. 适用范围(Scope of Use)


II. 场景矩阵(Dataset Scenarios Matrix)

场景

典型来源

核心字段

关键指标

质量门

说明

Batch

分区文件/对象存储

record_id, ts, schema.*

完整率、去重率、p_dim

G1/G4/G8

版本化 Schema 与切分

Streaming

事件/消息队列

event_id, window, flags

延迟、丢失率、σ_y(τ)

G3/G5/G6

Exactly-Once/At-Least-Once 说明

Near-RT

共享内存/微批

ts_align, slice

抖动、Latency_P95

G5/G6

同步链路与水位策略

Hybrid

线上+离线

contract.snapshot

对齐一致性、Q_res

G1–G8

线上回流与离线校核

路径量统一口径:
T_arr = ( 1 / c_ref ) * ( ∫ n_eff d ell );或 T_arr = ( ∫ ( n_eff / c_ref ) d ell );
相位:Phi = ( 2π / λ_ref ) * ( ∫ n_eff d ell )。


III. 依赖与对齐(Dependencies & Alignment)


IV. 引用与版本(Citations & Versioning)


V. 合规前置(Compliance Prerequisites)


VI. 产出与接口(Outputs & Interfaces)

  1. 必交付:schema.json、contract.yaml、split.yaml、validate_report.json、check_dim_report.json、audit.jsonl、report_manifest.yaml、SIGNATURE.asc。
  2. 接口(建议)
    • I81-dataset_ingest(package) -> validate_report.json
    • I82-dataset_validate(gates[]) -> report
    • I83-dataset_manifest_export(fmt) -> report_manifest.yaml
    • I84-dataset_split(plan.yaml) -> split_manifest.json
    • I89-dataset_publish(channel) -> release_id

VII. 执行勾选清单(Checklist)


版权与许可:除另有说明外,《能量丝理论》(含文本、图表、插图、符号与公式)的著作权由作者(屠广林)享有。
许可方式(CC BY 4.0):在注明作者与来源的前提下,允许复制、转载、节选、改编与再分发。
署名格式(建议):作者:屠广林|作品:《能量丝理论》|来源:energyfilament.org|许可证:CC BY 4.0
验证召集: 作者独立自费、无雇主无资助;下一阶段将优先在最愿意公开讨论、公开复现、公开挑错的环境中推进落地,不限国家。欢迎各国媒体与同行抓住窗口组织验证,并与我们联系。
版本信息: 首次发布:2025-11-11 | 当前版本:v6.0+5.05