目录 / 文档-技术白皮书 / 45-EFT.WP.Data.Pipeline v1.0
I. 章节目的与读者
- 目的:确立“数据流水线(Pipeline)”在 EFT 数据体系中的定位、最小合规要求与适用边界;给出与数据卡、模型卡、计量与引用锚点的衔接方式,并固定机器可读产物与发布门槛。
- 读者:数据工程与平台团队、特征与建模工程师、MLOps/DevOps、质量与合规负责人、审计与复现实验执行者。
II. 术语与引用口径
- 术语来源:通用术语遵循《EFT 技术白皮书与技术备忘模板 全面清单 v0.1》,本卷仅补充与流水线直接相关的增量术语(如 stage/operator、contract/schema、DQ gate、lineage、SLA/SLO、orchestrator)。
- 引用写法:跨卷引用必须携带“卷名 vX.Y:章节/锚点”,优先指向条文级 P/S/M/I 锚点。
- 数学与符号:所有内联符号用反引号(如 QPS、T_inf、f_samp、T_arr);凡含除号/积分/复合算符必须加括号并显式声明路径 gamma(ell) 与测度 d ell;公式/符号/定义禁用中文。
III. 本卷适用范围(In Scope)
- 对象:面向 EFT 体系内从数据源→验证→转换→特征→分发→监控的端到端流水线之规范性要求与工程实践:
- 分层与拓扑(layers[]/edges[])与契约(Σ_in/Σ_out);
- 数据源与摄取、Schema/契约管理、数据验证与 DQ 质量门;
- 转换与预处理、特征流水线与重用;
- 采样、切分与分发;编排与调度、资源与 SLA;
- 版本化与血缘、监控与可观测性、性能与成本、隐私安全合规;
- 机器可读 Schema 与 Lint、实现绑定与执行 API、模板与示例。
- 与数据/模型卡的关系:流水线是生产过程的规范载体;数据事实与切分回指《EFT.WP.Data.DatasetCards v1.0》,特征与 I/O 假设回指《EFT.WP.Data.ModelCards v1.0》。
IV. 非适用范围(Out of Scope)
不含:底层存储引擎实现细节、特定供应商计费规则的完整手册、训练算法与模型结构的理论推导正文;如需,分别见平台/方法学或模型相关卷。V. 产出物与合规门槛
- 产出物:
- pipeline.yaml(或 JSON)——完整流水线规范;
- pipeline.schema.json 与 lint_rules.yaml——机器可读校验与阻断规则;
- export_manifest——含 version、references[] 与工件 sha256;
- 审计工件:质量门报告、血缘图、运行指标与回放日志。
- 最低合规(发布前必须通过):
- 必填字段完整、类型/正则与依赖校验通过;
- 计量校核 units="SI" & check_dim=true;
- 冻结切分与泄漏护栏到位;
- 引用采用“卷名+版本+锚点”,无短码/别名;
- 质量门、隐私与区域合规检查通过。
VI. 文档结构与跨卷依赖地图
- 结构映射:
- Ch.3–Ch.5:分层与总览、数据源与摄取、Schema/契约;
- Ch.6–Ch.8:数据验证与 DQ、转换与预处理、特征流水线;
- Ch.9–Ch.10:采样/切分/分发、编排/调度/资源;
- Ch.11–Ch.13:版本化与血缘、监控日志可观测、性能成本扩缩;
- Ch.14–Ch.15:隐私安全合规、容错恢复灾备;
- Ch.16–Ch.18:机器可读 Schema/Lint、执行 API、模板附录。
- 依赖约束:
- 数据契约与导出:回指《Core.DataSpec v1.0》;
- 计量/单位:回指《Core.Metrology v1.0》;
- 数据/模型卡:分别回指《DatasetCards v1.0》《ModelCards v1.0》。
VII. 命名与字段风格
- 命名:键名统一 snake_case;流水线对象保留名:pipeline.id/version/layers/edges/resources/scheduling/quality_gates/export_manifest/metrology 等,语义不可重定义。
- 符号冲突:T_fil 与 T_trans 不可混用;n 与 n_eff 严格区分;公式/符号/定义禁用中文。
VIII. 机器可读与验证接口(概览)
- Schema & Lint:提供 pipeline.schema.json 与 lint_rules.yaml(阻断:引用锚点正则、冻结切分、计量校核、幂等/重试/超时、泄漏护栏等)。
- 执行与验证 API:/pipelines/validate|plan|run|metrics|lineage;鉴权、幂等与速率限制固定;请求/响应采用统一信封;返回结构含 {"ok":bool,"errors":[],"warnings":[],"metrics":{...}}。
IX. 质量、可复现与审计
- 质量门:Schema 合规、DQ 通过、覆盖率与置信区间、隐私合规与访问控制、SLA 与告警。
- 可复现:源数据/配置/容器/环境版本锁定与工件哈希;回放日志与影子对比一致。
- 审计轨:版本化与引用锚点、血缘图、DQ 报告与运行指标、导出工件哈希均可追溯。
X. 使用与维护
- 使用:对外与对内均以流水线规范为唯一口径;跨卷引用仅使用稳定线版本(如 v1.*)。
- 维护:当层次/算子/契约或依赖条目更新时,按本卷“版本化与血缘”发布新版本,并在 export_manifest 反映引用变化与公告。
版权与许可(CC BY 4.0)
版权声明:除另有说明外,《能量丝理论》(含文本、图表、插图、符号与公式)的著作权由作者(“屠广林”先生)享有。
许可方式:本作品采用 Creative Commons 署名 4.0 国际许可协议(CC BY 4.0)进行许可;在注明作者与来源的前提下,允许为商业或非商业目的进行复制、转载、节选、改编与再分发。
署名格式(建议):作者:“屠广林”;作品:《能量丝理论》;来源:energyfilament.org;许可证:CC BY 4.0。
首次发布: 2025-11-11|当前版本:v5.1
协议链接:https://creativecommons.org/licenses/by/4.0/