目录文档-技术白皮书45-EFT.WP.Data.Pipeline v1.0

第1章 概述与范围


I. 章节目的与读者


II. 术语与引用口径


III. 本卷适用范围(In Scope)

  1. 对象:面向 EFT 体系内从数据源→验证→转换→特征→分发→监控的端到端流水线之规范性要求与工程实践
    • 分层与拓扑(layers[]/edges[])与契约(Σ_in/Σ_out);
    • 数据源与摄取、Schema/契约管理、数据验证与 DQ 质量门;
    • 转换与预处理、特征流水线与重用;
    • 采样、切分与分发;编排与调度、资源与 SLA;
    • 版本化与血缘、监控与可观测性、性能与成本、隐私安全合规;
    • 机器可读 Schema 与 Lint、实现绑定与执行 API、模板与示例。
  2. 与数据/模型卡的关系:流水线是生产过程的规范载体;数据事实与切分回指《EFT.WP.Data.DatasetCards v1.0》,特征与 I/O 假设回指《EFT.WP.Data.ModelCards v1.0》。

IV. 非适用范围(Out of Scope)

不含:底层存储引擎实现细节、特定供应商计费规则的完整手册、训练算法与模型结构的理论推导正文;如需,分别见平台/方法学或模型相关卷。

V. 产出物与合规门槛

  1. 产出物
    • pipeline.yaml(或 JSON)——完整流水线规范;
    • pipeline.schema.json 与 lint_rules.yaml——机器可读校验与阻断规则;
    • export_manifest——含 version、references[] 与工件 sha256;
    • 审计工件:质量门报告、血缘图、运行指标与回放日志。
  2. 最低合规(发布前必须通过):
    • 必填字段完整、类型/正则与依赖校验通过;
    • 计量校核 units="SI" & check_dim=true;
    • 冻结切分与泄漏护栏到位;
    • 引用采用“卷名+版本+锚点”,无短码/别名;
    • 质量门、隐私与区域合规检查通过。

VI. 文档结构与跨卷依赖地图

  1. 结构映射
    • Ch.3–Ch.5:分层与总览、数据源与摄取、Schema/契约;
    • Ch.6–Ch.8:数据验证与 DQ、转换与预处理、特征流水线;
    • Ch.9–Ch.10:采样/切分/分发、编排/调度/资源;
    • Ch.11–Ch.13:版本化与血缘、监控日志可观测、性能成本扩缩;
    • Ch.14–Ch.15:隐私安全合规、容错恢复灾备;
    • Ch.16–Ch.18:机器可读 Schema/Lint、执行 API、模板附录。
  2. 依赖约束
    • 数据契约与导出:回指《Core.DataSpec v1.0》;
    • 计量/单位:回指《Core.Metrology v1.0》;
    • 数据/模型卡:分别回指《DatasetCards v1.0》《ModelCards v1.0》。

VII. 命名与字段风格


VIII. 机器可读与验证接口(概览)


IX. 质量、可复现与审计


X. 使用与维护


版权与许可(CC BY 4.0)

版权声明:除另有说明外,《能量丝理论》(含文本、图表、插图、符号与公式)的著作权由作者(“屠广林”先生)享有。
许可方式:本作品采用 Creative Commons 署名 4.0 国际许可协议(CC BY 4.0)进行许可;在注明作者与来源的前提下,允许为商业或非商业目的进行复制、转载、节选、改编与再分发。
署名格式(建议):作者:“屠广林”;作品:《能量丝理论》;来源:energyfilament.org;许可证:CC BY 4.0。

首次发布: 2025-11-11|当前版本:v5.1
协议链接:https://creativecommons.org/licenses/by/4.0/