目录 / 文档-技术白皮书(V5.05) / 43-EFT.WP.Data.DatasetCards v1.0
I. 章节目的与范围
、参数锁定、环境与随机性控制、污染移除与归一化口径;确保可复现与可审计。条文级引用采用“卷名+版本+锚点”,键名一律 snake_case。 流程化记录固化清洗与预处理的II. 术语与依赖
- 术语来源:通用术语遵循《EFT.WP.Core.Terms v1.0》,本章仅增量定义流程与参数相关字段。
- 依赖卷:数据契约/导出:《Core.DataSpec v1.0》;计量/单位/不确定度:《Core.Metrology v1.0》;路径/到达时等口径:《Core.Equations v1.1》。涉及公式必须使用反引号并禁用中文。
III. 字段与结构(规范性)
preprocess:
pipeline_id: "<string>" # 流水线标识(语义化命名)
steps: # 有序步骤,幂等定义
- name: "<denoise|filter|rfi_clean|normalize|resample|impute|clip|custom>"
enabled: true
params: { ... } # 参数全量显式化,含单位
idempotent: true
inputs: ["<field>"]
outputs: ["<field>"]
notes: "<non-normative>"
parameter_lock: true # 发布前参数冻结
randomness:
seed: 1701
libraries: {numpy:"1.26.4", torch:"2.3.1"}
environment:
os: "ubuntu22.04"
toolchain: ["python3.11","fftw3"]
containers: ["ghcr.io/eift/card-prep:1.0.2"]
audits: ["nan-check","range-check","leakage","class-imbalance"]
artifacts:
- path: "preprocess/logs/step-01.jsonl"
sha256: "..."
- path: "preprocess/configs/lock.yaml"
sha256: "..."
see:
- "EFT.WP.Core.Metrology v1.0:check_dim"
- "EFT.WP.Core.DataSpec v1.0:EXPORT"
(导出物须在 export_manifest.references[] 中体现并附 sha256。)
IV. 常见操作的规范口径
- 去噪 denoise:声明算法(如 median-k=3、wavelet-db8)、窗口与边界策略;数值字段通过 check_dim 校核量纲一致。
- 滤波 filter:明确 type(lowpass|bandpass|notch)、cutoff/band、order、window,并声明相位口径(零相/因果)。
- RFI/异常清理 rfi_clean|clip:给出阈值定义、掩膜策略与恢复/插值口径;记录被移除样本占比。
- 归一化 normalize:明确基准(zscore/minmax/robust)、统计量窗口与泄漏防控(不得用验证/测试集统计量)。
- 重采样 resample:声明目标采样率 f_samp、抗混叠滤波与插值方法。
- 缺失值处理 impute:声明策略(均值/中位数/KNN/模型)、适用字段与不确定度影响记账(进入 uncertainty 扩展)。
- 自定义 custom:提供可执行引用(脚本/容器)与参数哈希;在 related_artifacts[] 关联工件并纳入导出。
V. 参数锁定与随机性控制
- parameter_lock=true 为发布前置条件;所有 params 在锁定文件中固化(含单位/量纲)。
- randomness:固定 seed 与库版本;若并行/分布式,声明确定性后端或接受的非确定性幅度。
VI. 数据完整性与污染控制
- nan-check/range-check:列出字段的有效域与越界策略(丢弃/裁剪/回填)。
- 重复/泄漏:对象级、时间窗级去重;跨 splits 泄漏为阻断项,须在 audits 记录并在 quality.gates 设通过阈。
VII. 环境与可复现
- 记录 OS、依赖、容器镜像与启动命令;建议导出 锁定配置 与 执行日志 的 sha256。
- 若处理链涉及路径依赖量(如 T_arr),需在卡片中登记:delta_form、path="gamma(ell)"、measure="d ell",对应两等价表达:
- T_arr = ( 1 / c_ref ) * ( ∫ n_eff d ell )
- T_arr = ( ∫ ( n_eff / c_ref ) d ell )。
并通过量纲一致性 check_dim 校验。
VIII. 质量检查与指标
- 覆盖率:处理前/后样本数与分布对照。
- 信噪指标:如 SNR_before/after、伪影率、RFI 掩膜占比。
- 一致性:关键统计量漂移(分位数/自相关/频谱)与门限;不通过视为卡片发布失败。
IX. 与导出清单的耦合
export_manifest:
references:
- "EFT.WP.Core.DataSpec v1.0:EXPORT"
- "EFT.WP.Core.Metrology v1.0:check_dim"
artifacts:
- {path:"preprocess/logs/step-*.jsonl", sha256:"..."}
- {path:"preprocess/configs/lock.yaml", sha256:"..."}
(所有清洗/预处理相关工件需出现在导出清单中并可校验。)
X. 示例片段(可直接嵌入卡片)
preprocess:
pipeline_id: "rf-frb-clean-v1"
steps:
- name: "rfi_clean"
enabled: true
params: {method:"spectral-kurtosis", window:256, thr_sigma:5}
idempotent: true
inputs: ["raw_spec"]
outputs: ["mask_spec"]
- name: "filter"
enabled: true
params: {type:"bandpass", f_lo_hz:1.2e6, f_hi_hz:3.8e6, order:5, phase:"zero"}
idempotent: true
inputs: ["raw_ts"]
outputs: ["flt_ts"]
- name: "normalize"
enabled: true
params: {type:"zscore", stats_from:"train-only", clip_q:[0.01,0.99]}
idempotent: true
inputs: ["flt_ts"]
outputs: ["norm_ts"]
parameter_lock: true
randomness: {seed: 1701, libraries:{numpy:"1.26.4"}}
environment: {os:"ubuntu22.04", containers:["ghcr.io/eift/card-prep:1.0.2"]}
audits: ["nan-check","leakage","class-imbalance"]
(导出时将配置与日志加入 export_manifest.artifacts[] 并登记引用锚点。)
XI. 本章合规自检
- preprocess.pipeline_id/steps[]、参数、环境、随机性与审计项完整记录并锁定;日志与配置纳入导出并具 sha256。
- 任何公式/符号使用反引号与括号,并禁用中文;跨卷引用采用 "卷名 vX.Y:锚点"。
- 涉及 T_arr 时,已登记 delta_form/path/measure,并通过 check_dim 校核。
版权与许可:除另有说明外,《能量丝理论》(含文本、图表、插图、符号与公式)的著作权由作者(屠广林)享有。
许可方式(CC BY 4.0):在注明作者与来源的前提下,允许复制、转载、节选、改编与再分发。
署名格式(建议):作者:屠广林|作品:《能量丝理论》|来源:energyfilament.org|许可证:CC BY 4.0
验证召集: 作者独立自费、无雇主无资助;下一阶段将优先在最愿意公开讨论、公开复现、公开挑错的环境中推进落地,不限国家。欢迎各国媒体与同行抓住窗口组织验证,并与我们联系。
版本信息: 首次发布:2025-11-11 | 当前版本:v6.0+5.05