目录 / 文档-技术白皮书(V5.05) / 44-EFT.WP.Data.ModelCards v1.0
I. 章节目的与范围
、参数锁定与环境可复现要求,覆盖训练/推理一致性、数据清洗与标准化、特征构建与选择、泄漏防控与计量校核;确保与《任务与 I/O》《训练数据与采样绑定》《评测协议与指标》及计量章一致。规范性定义固化模型卡中的 preprocess 与特征工程的II. 术语与依赖
- 术语来源:遵循《EFT 技术白皮书与技术备忘模板 全面清单 v0.1》,本章仅增量限定预处理与特征工程相关字段。
- 依赖卷:数据契约/导出《Core.DataSpec v1.0》;计量与量纲校核《Core.Metrology v1.0》;路径依赖表达如适用见《Core.Equations v1.1》;训练数据与切分见《DatasetCards v1.0》。
- 数学与符号:内联符号一律用反引号(如 x, z, μ, σ, f_θ(x));含除号/积分/复合算符必须加括号;公式/符号/定义禁用中文。
III. 字段与结构(规范性)
preprocess:
pipeline_id: "<string>" # 语义化流水线标识
steps: # 有序、幂等步骤
- name: "<clean|filter|normalize|standardize|resample|impute|encode|tokenize|stft|specaugment|feature_map|pca|custom>"
enabled: true
idempotent: true
params: { ... } # 显式列出,含单位/量纲口径
inputs: ["<field>"]
outputs: ["<field>"]
notes: "<non-normative>"
feature_space: # 特征空间声明(训练/推理一致)
type: "<dense|sparse|sequence|image|audio_spec|tabular|embedding>"
shape: "<(…)>"
dtype: "<float32|int32|...>"
normalization: "<zscore|minmax|robust|unit-norm|none>"
dictionary?: "<path-or-ref>" # 分词/子词/类别字典引用
parameter_lock: true # 发布前冻结参数(含统计量)
randomness:
seed: 1701
libraries: {numpy:"1.26.4", torch:"2.3.1"}
environment:
os: "ubuntu22.04"
toolchain: ["python3.11","fftw3"]
containers: ["ghcr.io/eift/model-prep:1.0.2"]
audits: ["nan-check","range-check","leakage","class-imbalance","drift"]
artifacts:
- {path:"preprocess/logs/step-01.jsonl", sha256:"..."}
- {path:"preprocess/configs/lock.yaml", sha256:"..."}
see:
- "EFT.WP.Core.Metrology v1.0:check_dim"
IV. 训练/推理一致性与泄漏防控
- 一致性:训练与推理必须使用同一 pipeline_id/steps 与 feature_space 定义;统计量(如 μ/σ、分位数、idf)仅由训练集计算并入锁定文件。
- 泄漏防控:禁止使用验证/测试集统计量或派生工件(包括归一化参数、字典/编码表、PCA 载荷等);audits 中记录检查结果与处置策略。
- 冻结切分绑定:使用与《训练数据与采样绑定》相同的 splits_ref,以保证重放可比。
V. 常见操作的规范口径
- 清洗 clean/滤波 filter:声明策略、阈值/窗口、边界条件;数值单位通过 check_dim 校核。
- 归一化 normalize/标准化 standardize:明确基准(zscore/minmax/robust/unit-norm)与统计量来源(train-only)。
- 重采样 resample:声明 f_samp 与抗混叠滤波;音频/时序需给出目标频率与插值法。
- 缺失值处理 impute:均值/中位数/KNN/模型;记录对不确定度的影响(进入模型卡 uncertainty)。
- 编码/分词 encode|tokenize:字典版本、unk/pad 策略、最大长度与截断/滑窗规则。
- 频谱与增强 stft|specaugment:窗口、步长、频/时掩蔽参数与随机种子。
- 特征构建 feature_map/降维 pca:函数/核、超参、适用维度;PCA 需记录载荷矩阵与解释方差比。
- 自定义 custom:提供脚本/容器引用与参数哈希;在 artifacts 与导出清单登记。
VI. 特征空间与 I/O 对齐
- 形状/语义:feature_space.shape/dtype/normalization 必须与第6章 io_schema 的输入约定一致;
- 嵌入/词表:若输入为嵌入或稀疏编码,需在 feature_space 记录维度、词表大小与 OOV 处理策略;
- 跨模态:多模态时为各模态提供独立子空间定义,并在 evaluation 分模态报告影响。
VII. 计量与单位
- 所有含物理/时间/频率量的参数在 params 中给出单位,并由《Metrology v1.0》校核 check_dim=true;
- 若特征或目标涉及路径量(如 T_arr),需登记:delta_form、path="gamma(ell)"、measure="d ell",并采用两种等价表达之一进行一致性校验:
- T_arr = ( 1 / c_ref ) * ( ∫ n_eff d ell )
- T_arr = ( ∫ ( n_eff / c_ref ) d ell )。
VIII. 机器可读片段(可直接嵌入)
preprocess:
pipeline_id: "img-prep-v1"
steps:
- name: "clean"
enabled: true
idempotent: true
params: {policy:"drop-out-of-range", lo:0, hi:255}
inputs: ["raw_image"]
outputs: ["cln_image"]
- name: "standardize"
enabled: true
idempotent: true
params: {type:"zscore", mean:[0.485,0.456,0.406], std:[0.229,0.224,0.225], stats_from:"train-only"}
inputs: ["cln_image"]
outputs: ["std_image"]
- name: "feature_map"
enabled: true
idempotent: true
params: {type:"hog", cell:8, block:2, bin:9}
inputs: ["std_image"]
outputs: ["feat_hog"]
feature_space:
type: "dense"
shape: "(H', W', C')"
dtype: "float32"
normalization: "zscore"
parameter_lock: true
randomness: {seed:1701, libraries:{numpy:"1.26.4"}}
environment: {os:"ubuntu22.04", containers:["ghcr.io/eift/model-prep:1.0.2"]}
audits: ["nan-check","range-check","leakage","drift"]
artifacts:
- {path:"preprocess/configs/lock.yaml", sha256:"..."}
IX. 与评测协议、优化与超参的一致性
- 评测使用与训练同一 preprocess 与 feature_space;
- 若推理增设轻量转换(如量化前置归一化),需在 deployment 与 resources 反映其代价,并在 evaluation 说明对指标的影响与显著性。
X. 导出清单与审计轨
export_manifest:
artifacts:
- {path:"preprocess/logs/step-*.jsonl", sha256:"..."}
- {path:"preprocess/configs/lock.yaml", sha256:"..."}
- {path:"features/spec.yaml", sha256:"..."}
references:
- "EFT.WP.Core.DataSpec v1.0:EXPORT"
- "EFT.WP.Core.Metrology v1.0:check_dim"
可校验并与模型卡字段对表。必须所有预处理/特征相关工件XI. 本章合规自检
- pipeline_id/steps、feature_space、参数锁定与环境已完整记录;训练与推理一致,统计量来自训练集。
- 泄漏防控与审计结果已登记并通过;与《训练数据与采样绑定》的 splits_ref 一致。
- 所有含单位的参数已通过 check_dim;如涉路径量,delta_form/path/measure 完整且两种 T_arr 表达一致。
- 导出清单包含日志、锁定配置与特征规范文件,具 sha256;references[] 采用“卷名 vX.Y:锚点”。
版权与许可:除另有说明外,《能量丝理论》(含文本、图表、插图、符号与公式)的著作权由作者(屠广林)享有。
许可方式(CC BY 4.0):在注明作者与来源的前提下,允许复制、转载、节选、改编与再分发。
署名格式(建议):作者:屠广林|作品:《能量丝理论》|来源:energyfilament.org|许可证:CC BY 4.0
验证召集: 作者独立自费、无雇主无资助;下一阶段将优先在最愿意公开讨论、公开复现、公开挑错的环境中推进落地,不限国家。欢迎各国媒体与同行抓住窗口组织验证,并与我们联系。
版本信息: 首次发布:2025-11-11 | 当前版本:v6.0+5.05