目录文档-技术白皮书(V5.05)43-EFT.WP.Data.DatasetCards v1.0

第7章 清洗与预处理


I. 章节目的与范围

、参数锁定、环境与随机性控制、污染移除与归一化口径;确保可复现与可审计。条文级引用采用“卷名+版本+锚点”,键名一律 snake_case。 流程化记录固化清洗与预处理的

II. 术语与依赖


III. 字段与结构(规范性)

preprocess:

pipeline_id: "<string>" # 流水线标识(语义化命名)

steps: # 有序步骤,幂等定义

- name: "<denoise|filter|rfi_clean|normalize|resample|impute|clip|custom>"

enabled: true

params: { ... } # 参数全量显式化,含单位

idempotent: true

inputs: ["<field>"]

outputs: ["<field>"]

notes: "<non-normative>"

parameter_lock: true # 发布前参数冻结

randomness:

seed: 1701

libraries: {numpy:"1.26.4", torch:"2.3.1"}

environment:

os: "ubuntu22.04"

toolchain: ["python3.11","fftw3"]

containers: ["ghcr.io/eift/card-prep:1.0.2"]

audits: ["nan-check","range-check","leakage","class-imbalance"]

artifacts:

- path: "preprocess/logs/step-01.jsonl"

sha256: "..."

- path: "preprocess/configs/lock.yaml"

sha256: "..."

see:

- "EFT.WP.Core.Metrology v1.0:check_dim"

- "EFT.WP.Core.DataSpec v1.0:EXPORT"

(导出物须在 export_manifest.references[] 中体现并附 sha256。)


IV. 常见操作的规范口径


V. 参数锁定与随机性控制


VI. 数据完整性与污染控制


VII. 环境与可复现

  1. 记录 OS、依赖、容器镜像与启动命令;建议导出 锁定配置执行日志 的 sha256。
  2. 若处理链涉及路径依赖量(如 T_arr),需在卡片中登记:delta_form、path="gamma(ell)"、measure="d ell",对应两等价表达:
    • T_arr = ( 1 / c_ref ) * ( ∫ n_eff d ell )
    • T_arr = ( ∫ ( n_eff / c_ref ) d ell )。
      并通过量纲一致性 check_dim 校验。

VIII. 质量检查与指标


IX. 与导出清单的耦合

export_manifest:

references:

- "EFT.WP.Core.DataSpec v1.0:EXPORT"

- "EFT.WP.Core.Metrology v1.0:check_dim"

artifacts:

- {path:"preprocess/logs/step-*.jsonl", sha256:"..."}

- {path:"preprocess/configs/lock.yaml", sha256:"..."}

(所有清洗/预处理相关工件需出现在导出清单中并可校验。)


X. 示例片段(可直接嵌入卡片)

preprocess:

pipeline_id: "rf-frb-clean-v1"

steps:

- name: "rfi_clean"

enabled: true

params: {method:"spectral-kurtosis", window:256, thr_sigma:5}

idempotent: true

inputs: ["raw_spec"]

outputs: ["mask_spec"]

- name: "filter"

enabled: true

params: {type:"bandpass", f_lo_hz:1.2e6, f_hi_hz:3.8e6, order:5, phase:"zero"}

idempotent: true

inputs: ["raw_ts"]

outputs: ["flt_ts"]

- name: "normalize"

enabled: true

params: {type:"zscore", stats_from:"train-only", clip_q:[0.01,0.99]}

idempotent: true

inputs: ["flt_ts"]

outputs: ["norm_ts"]

parameter_lock: true

randomness: {seed: 1701, libraries:{numpy:"1.26.4"}}

environment: {os:"ubuntu22.04", containers:["ghcr.io/eift/card-prep:1.0.2"]}

audits: ["nan-check","leakage","class-imbalance"]

(导出时将配置与日志加入 export_manifest.artifacts[] 并登记引用锚点。)


XI. 本章合规自检


版权与许可:除另有说明外,《能量丝理论》(含文本、图表、插图、符号与公式)的著作权由作者(屠广林)享有。
许可方式(CC BY 4.0):在注明作者与来源的前提下,允许复制、转载、节选、改编与再分发。
署名格式(建议):作者:屠广林|作品:《能量丝理论》|来源:energyfilament.org|许可证:CC BY 4.0
验证召集: 作者独立自费、无雇主无资助;下一阶段将优先在最愿意公开讨论、公开复现、公开挑错的环境中推进落地,不限国家。欢迎各国媒体与同行抓住窗口组织验证,并与我们联系。
版本信息: 首次发布:2025-11-11 | 当前版本:v6.0+5.05