目录文档-技术白皮书14-EFT.WP.Methods.Inference v1.0

第4章 数据与特征接口


I. 范围与目标

  1. 建立推理用数据与特征接口之统一口径,覆盖输入模式、时间窗对齐、特征加工、量纲校核、追溯与漂移监测;确保训练-推理一致与跨域可移植。
  2. 目标产出:
    • FeatureCard 与 InferPipelineCard 的字段与版本要求;
    • 特征加工最小方程 S42-* 与公设 P41-*(本章新增项);
    • 线下/线上特征一致性度量 delta_fp 与门限 gate.inf.feature。
  3. 适用读者:特征工程、数据平台、模型与运行团队;通过标准与第3章、第6章的 delta_offon、ECE/NLL 可拼接审计轨。

II. 术语与符号

  1. 数据与时间:
    • x_raw(原始输入流),x_feat(已加工特征向量),y(标签),id(实体或会话标识),ts_event(事件时刻),ts_proc(处理时刻),window = [t0, t1],lookback,stride,lag_k。
    • tau_mono,ts,alpha,beta(时基映射)。
  2. 加工与校核:
    z(标准化后),mu,sigma,epsilon,winsor(a,b),clip(a,b),impute,onehot,emb(W),norm(·),check_dim(expr)。
  3. 追溯与签名:
    hash(·),fingerprint,EnvLock,anchor,FeatureCard,Lineage。
  4. 一致性与漂移:
    delta_fp = ( norm( x_feat_off - x_feat_on ) / norm( x_feat_off ) ),R_infer = 1 - delta_offon,D_KL(p || q) = Σ p_i * ln( p_i / q_i ),W1(一阶 Wasserstein)。

III. 公设与最小方程

  1. P41-4 特征可重复公设(锁定环境与规范)
    在固定 FeatureCard、Graph(theta) 与 EnvLock 下,给定同一 anchor 与输入 x_raw,线下与线上应满足 x_feat_off = x_feat_on;若存在随机化算子则在 nondet_guard = true 时仍应一致。
  2. P41-5 无泄漏公设(lookahead=0)
    任一特征仅依赖 window = [t0, t1] 内 ts_event <= t1 的可用信息;禁止 lead_k (k>0)、禁止使用 y 或其任何代理的函数作为输入。
  3. S42-5 标准化与稳健化
    z = ( x - mu ) / ( sigma + epsilon );若稳健口径,mu = median(x),sigma = mad(x);可选 winsor(a,b) 或 clip(a,b) 以限制离群值影响。
  4. S42-6 窗口聚合与测度
    • 均值:agg_mean = ( 1 / |W| ) * Σ_{t ∈ W} x(t);
    • 指数衰减均值:agg_ema = ( Σ w_t * x(t) ) / ( Σ w_t ),w_t = exp( - lambda * ( t1 - t ) );
    • 频域能量(与谱口径对齐):var( x ) ≈ ( ∫ S_xx(f) df ),窗口与 ENBW 必声明。
  5. S42-7 特征一致性与漂移度量
    • 样本级一致性:delta_fp = ( norm( x_feat_off - x_feat_on ) / norm( x_feat_off ) );
    • 分布漂移:D_KL( p_off || p_on ),W1( p_off, p_on ),以及均值/方差差:| mu_off - mu_on |,| sigma_off - sigma_on |;
    • 门限示例:delta_fp <= tau_fp,D_KL <= tau_kl,W1 <= tau_w1。
  6. S42-8 加工签名与可追溯性
    fingerprint = hash( FeatureCard || code_rev || anchor || {alpha,beta} || schema );发布任何特征版本均应输出 fingerprint 与 Lineage。

IV. 数据与清单口径


V. 算法与实现绑定

  1. 新增原型:
    • I40-11 build_features(stream:any, card:dict) -> {x_feat:any, qc:dict}
    • I40-12 validate_features(x_feat:any, card:dict) -> {pass:bool, report:dict}
    • I40-13 align_windows(records:any, alpha:float, beta:float, spec:dict) -> records
    • I40-14 compare_feature_parity(off:any, on:any, policy:dict) -> {delta_fp:float, pass:bool}
    • I40-15 monitor_feature_drift(dist_off:any, dist_on:any, metrics:list) -> DriftReport
  2. 伪代码(摘要):
    • 对齐:records ← align_timebase(records, {alpha,beta});
    • 取窗:按 window_spec 切片并生成 context/history;
    • 加工:按 ops 顺序执行 impute → transform → aggregate → standardize;
    • 校核:validate_features 执行 check_dim/range/missing 与泄漏扫描;
    • 追溯:生成 fingerprint 与 Lineage。

VI. 计量流程与运行图


VII. 验证与测试矩阵

  1. 最小必测用例:
    • 单位一致性:随机抽样执行 check_dim(expr),断言全部通过。
    • 泄漏防护:在含 y 的任务中运行特征扫描,断言未出现 lead_k (k>0) 或 y 的函数依赖。
    • 标准化稳健性:引入离群值,比较 z 的两种口径(均值方差 vs 中位数-MAD)。
    • 窗口端点:在 t1 的边界样本验证包含/排除策略与时区、夏令时转换一致性。
    • 线下/线上一致性:计算 delta_fp,断言 delta_fp <= tau_fp。
    • 谱口径一致:对时序特征验证 var( x ) ≈ ( ∫ S_xx(f) df ) 与窗口 ENBW 配置一致。
  2. 边界与极端场景:
    迟到/乱序事件、批量重放、空窗、全缺失、极低基数类别、嵌入 emb(W) 冷启动、跨设备 beta ≠ 1 的时基拉伸。

VIII. 交叉引用与依赖


IX. 风险、限制与开放问题


X. 交付件与版本管理

  1. 交付件:
    • FeatureCard/*.json(含 window_spec/ops/params/unit/timebase);
    • FeatureLineage.md(来源、血缘、口径与 fingerprint);
    • FeatureParityReport(delta_fp, D_KL, W1, mu/sigma);
    • QCReport(缺失率、范围违规、维度校核)。
  2. 版本策略:
    • 任何更改 ops、window_spec、impute_policy、{mu,sigma}、{alpha,beta} 或外部 schema,均提升次版本并触发 Mx-47 全量一致性回归;
    • 仅更新说明文档与可视化不触发回归,但需滚动 fingerprint 与变更记录(见附录C)。

版权与许可(CC BY 4.0)

版权声明:除另有说明外,《能量丝理论》(含文本、图表、插图、符号与公式)的著作权由作者(“屠广林”先生)享有。
许可方式:本作品采用 Creative Commons 署名 4.0 国际许可协议(CC BY 4.0)进行许可;在注明作者与来源的前提下,允许为商业或非商业目的进行复制、转载、节选、改编与再分发。
署名格式(建议):作者:“屠广林”;作品:《能量丝理论》;来源:energyfilament.org;许可证:CC BY 4.0。

首次发布: 2025-11-11|当前版本:v5.1
协议链接:https://creativecommons.org/licenses/by/4.0/