44-EFT.WP.Data.ModelCards v1.0 | 第9章预处理与特征工程

目录／文档-技术白皮书（V5.05）／ 44-EFT.WP.Data.ModelCards v1.0

第9章预处理与特征工程

I. 章节目的与范围

、参数锁定与环境可复现要求，覆盖训练/推理一致性、数据清洗与标准化、特征构建与选择、泄漏防控与计量校核；确保与《任务与 I/O》《训练数据与采样绑定》《评测协议与指标》及计量章一致。规范性定义固化模型卡中的 preprocess 与特征工程的

II. 术语与依赖

术语来源：遵循《EFT 技术白皮书与技术备忘模板全面清单 v0.1》，本章仅增量限定预处理与特征工程相关字段。
依赖卷：数据契约/导出《Core.DataSpec v1.0》；计量与量纲校核《Core.Metrology v1.0》；路径依赖表达如适用见《Core.Equations v1.1》；训练数据与切分见《DatasetCards v1.0》。
数学与符号：内联符号一律用反引号（如 x, z, μ, σ, f_θ(x)）；含除号/积分/复合算符必须加括号；公式/符号/定义禁用中文。

III. 字段与结构（规范性）

preprocess:

pipeline_id: "<string>" # 语义化流水线标识

steps: # 有序、幂等步骤

enabled: true

idempotent: true

params: { ... } # 显式列出，含单位/量纲口径

inputs: ["<field>"]

outputs: ["<field>"]

notes: "<non-normative>"

feature_space: # 特征空间声明（训练/推理一致）

shape: "<(…)>"

dtype: "<float32|int32|...>"

normalization: "<zscore|minmax|robust|unit-norm|none>"

dictionary?: "<path-or-ref>" # 分词/子词/类别字典引用

parameter_lock: true # 发布前冻结参数（含统计量）

randomness:

seed: 1701

libraries: {numpy:"1.26.4", torch:"2.3.1"}

environment:

os: "ubuntu22.04"

toolchain: ["python3.11","fftw3"]

containers: ["ghcr.io/eift/model-prep:1.0.2"]

audits: ["nan-check","range-check","leakage","class-imbalance","drift"]

artifacts:

- {path:"preprocess/logs/step-01.jsonl", sha256:"..."}

- {path:"preprocess/configs/lock.yaml", sha256:"..."}

see:

- "EFT.WP.Core.Metrology v1.0:check_dim"

IV. 训练/推理一致性与泄漏防控

一致性：训练与推理必须使用同一 pipeline_id/steps 与 feature_space 定义；统计量（如 μ/σ、分位数、idf）仅由训练集计算并入锁定文件。
泄漏防控：禁止使用验证/测试集统计量或派生工件（包括归一化参数、字典/编码表、PCA 载荷等）；audits 中记录检查结果与处置策略。
冻结切分绑定：使用与《训练数据与采样绑定》相同的 splits_ref，以保证重放可比。

V. 常见操作的规范口径

清洗 clean/滤波 filter：声明策略、阈值/窗口、边界条件；数值单位通过 check_dim 校核。
归一化 normalize/标准化 standardize：明确基准（zscore/minmax/robust/unit-norm）与统计量来源（train-only）。
重采样 resample：声明 f_samp 与抗混叠滤波；音频/时序需给出目标频率与插值法。
缺失值处理 impute：均值/中位数/KNN/模型；记录对不确定度的影响（进入模型卡 uncertainty）。
编码/分词 encode|tokenize：字典版本、unk/pad 策略、最大长度与截断/滑窗规则。
频谱与增强 stft|specaugment：窗口、步长、频/时掩蔽参数与随机种子。
特征构建 feature_map/降维 pca：函数/核、超参、适用维度；PCA 需记录载荷矩阵与解释方差比。
自定义 custom：提供脚本/容器引用与参数哈希；在 artifacts 与导出清单登记。

VI. 特征空间与 I/O 对齐

形状/语义：feature_space.shape/dtype/normalization 必须与第6章 io_schema 的输入约定一致；
嵌入/词表：若输入为嵌入或稀疏编码，需在 feature_space 记录维度、词表大小与 OOV 处理策略；
跨模态：多模态时为各模态提供独立子空间定义，并在 evaluation 分模态报告影响。

VII. 计量与单位

所有含物理/时间/频率量的参数在 params 中给出单位，并由《Metrology v1.0》校核 check_dim=true；
若特征或目标涉及路径量（如 T_arr），需登记：delta_form、path="gamma(ell)"、measure="d ell"，并采用两种等价表达之一进行一致性校验：
- T_arr = ( 1 / c_ref ) * ( ∫ n_eff d ell )
- T_arr = ( ∫ ( n_eff / c_ref ) d ell )。

VIII. 机器可读片段（可直接嵌入）

preprocess:

pipeline_id: "img-prep-v1"

steps:

- name: "clean"

enabled: true

idempotent: true

params: {policy:"drop-out-of-range", lo:0, hi:255}

inputs: ["raw_image"]

outputs: ["cln_image"]

- name: "standardize"

enabled: true

idempotent: true

params: {type:"zscore", mean:[0.485,0.456,0.406], std:[0.229,0.224,0.225], stats_from:"train-only"}

inputs: ["cln_image"]

outputs: ["std_image"]

- name: "feature_map"

enabled: true

idempotent: true

params: {type:"hog", cell:8, block:2, bin:9}

inputs: ["std_image"]

outputs: ["feat_hog"]

feature_space:

type: "dense"

shape: "(H', W', C')"

dtype: "float32"

normalization: "zscore"

parameter_lock: true

randomness: {seed:1701, libraries:{numpy:"1.26.4"}}

environment: {os:"ubuntu22.04", containers:["ghcr.io/eift/model-prep:1.0.2"]}

audits: ["nan-check","range-check","leakage","drift"]

artifacts:

- {path:"preprocess/configs/lock.yaml", sha256:"..."}

IX. 与评测协议、优化与超参的一致性

评测使用与训练同一 preprocess 与 feature_space；
若推理增设轻量转换（如量化前置归一化），需在 deployment 与 resources 反映其代价，并在 evaluation 说明对指标的影响与显著性。

X. 导出清单与审计轨

export_manifest:

artifacts:

- {path:"preprocess/logs/step-*.jsonl", sha256:"..."}

- {path:"preprocess/configs/lock.yaml", sha256:"..."}

- {path:"features/spec.yaml", sha256:"..."}

references:

- "EFT.WP.Core.DataSpec v1.0:EXPORT"

- "EFT.WP.Core.Metrology v1.0:check_dim"

可校验并与模型卡字段对表。必须所有预处理/特征相关工件

XI. 本章合规自检

pipeline_id/steps、feature_space、参数锁定与环境已完整记录；训练与推理一致，统计量来自训练集。
泄漏防控与审计结果已登记并通过；与《训练数据与采样绑定》的 splits_ref 一致。
所有含单位的参数已通过 check_dim；如涉路径量，delta_form/path/measure 完整且两种 T_arr 表达一致。
导出清单包含日志、锁定配置与特征规范文件，具 sha256；references[] 采用“卷名 vX.Y:锚点”。

版权与许可：除另有说明外，《能量丝理论》（含文本、图表、插图、符号与公式）的著作权由作者（屠广林）享有。
许可方式（CC BY 4.0）：在注明作者与来源的前提下，允许复制、转载、节选、改编与再分发。
署名格式（建议）：作者：屠广林｜作品：《能量丝理论》｜来源：energyfilament.org｜许可证：CC BY 4.0
验证召集： 作者独立自费、无雇主无资助；下一阶段将优先在最愿意公开讨论、公开复现、公开挑错的环境中推进落地，不限国家。欢迎各国媒体与同行抓住窗口组织验证，并与我们联系。
版本信息： 首次发布：2025-11-11 ｜当前版本：v6.0+5.05