目录 / 文档-技术白皮书 / 14-EFT.WP.Methods.Inference v1.0
I. 范围与目标
- 建立推理用数据与特征接口之统一口径,覆盖输入模式、时间窗对齐、特征加工、量纲校核、追溯与漂移监测;确保训练-推理一致与跨域可移植。
- 目标产出:
- FeatureCard 与 InferPipelineCard 的字段与版本要求;
- 特征加工最小方程 S42-* 与公设 P41-*(本章新增项);
- 线下/线上特征一致性度量 delta_fp 与门限 gate.inf.feature。
- 适用读者:特征工程、数据平台、模型与运行团队;通过标准与第3章、第6章的 delta_offon、ECE/NLL 可拼接审计轨。
II. 术语与符号
- 数据与时间:
- x_raw(原始输入流),x_feat(已加工特征向量),y(标签),id(实体或会话标识),ts_event(事件时刻),ts_proc(处理时刻),window = [t0, t1],lookback,stride,lag_k。
- tau_mono,ts,alpha,beta(时基映射)。
- 加工与校核:
z(标准化后),mu,sigma,epsilon,winsor(a,b),clip(a,b),impute,onehot,emb(W),norm(·),check_dim(expr)。 - 追溯与签名:
hash(·),fingerprint,EnvLock,anchor,FeatureCard,Lineage。 - 一致性与漂移:
delta_fp = ( norm( x_feat_off - x_feat_on ) / norm( x_feat_off ) ),R_infer = 1 - delta_offon,D_KL(p || q) = Σ p_i * ln( p_i / q_i ),W1(一阶 Wasserstein)。
III. 公设与最小方程
- P41-4 特征可重复公设(锁定环境与规范)
在固定 FeatureCard、Graph(theta) 与 EnvLock 下,给定同一 anchor 与输入 x_raw,线下与线上应满足 x_feat_off = x_feat_on;若存在随机化算子则在 nondet_guard = true 时仍应一致。 - P41-5 无泄漏公设(lookahead=0)
任一特征仅依赖 window = [t0, t1] 内 ts_event <= t1 的可用信息;禁止 lead_k (k>0)、禁止使用 y 或其任何代理的函数作为输入。 - S42-5 标准化与稳健化
z = ( x - mu ) / ( sigma + epsilon );若稳健口径,mu = median(x),sigma = mad(x);可选 winsor(a,b) 或 clip(a,b) 以限制离群值影响。 - S42-6 窗口聚合与测度
- 均值:agg_mean = ( 1 / |W| ) * Σ_{t ∈ W} x(t);
- 指数衰减均值:agg_ema = ( Σ w_t * x(t) ) / ( Σ w_t ),w_t = exp( - lambda * ( t1 - t ) );
- 频域能量(与谱口径对齐):var( x ) ≈ ( ∫ S_xx(f) df ),窗口与 ENBW 必声明。
- S42-7 特征一致性与漂移度量
- 样本级一致性:delta_fp = ( norm( x_feat_off - x_feat_on ) / norm( x_feat_off ) );
- 分布漂移:D_KL( p_off || p_on ),W1( p_off, p_on ),以及均值/方差差:| mu_off - mu_on |,| sigma_off - sigma_on |;
- 门限示例:delta_fp <= tau_fp,D_KL <= tau_kl,W1 <= tau_w1。
- S42-8 加工签名与可追溯性
fingerprint = hash( FeatureCard || code_rev || anchor || {alpha,beta} || schema );发布任何特征版本均应输出 fingerprint 与 Lineage。
IV. 数据与清单口径
- 数据最小字段集(按记录):
id,ts_event,ts_proc,source,x_raw,x_feat,y(若存在离线监督任务),mask_missing,quality_flag,window_id,partition。 - FeatureCard 最小键值:
name,version,owner,inputs(含来源与单位),ops(序列化的加工算子),params(如 mu,sigma,lambda,epsilon),window_spec(lookback,stride),timebase(alpha,beta),impute_policy,checklist(check_dim,range_check 等),hash(·),fingerprint。 - 时间与窗口口径:
所有聚合以事件时间 ts_event 计量;跨设备/节点先做 ts = alpha + beta * tau_mono 对齐;迟到数据的纳入规则与再计算窗口必须在 FeatureCard.window_spec 明示。 - 单位与量纲:
每一特征发布前执行 check_dim(expr);对 log/exp/ln 的自变量需无量纲;对速度、功率等派生量给出单位变换路径。
V. 算法与实现绑定
- 新增原型:
- I40-11 build_features(stream:any, card:dict) -> {x_feat:any, qc:dict}
- I40-12 validate_features(x_feat:any, card:dict) -> {pass:bool, report:dict}
- I40-13 align_windows(records:any, alpha:float, beta:float, spec:dict) -> records
- I40-14 compare_feature_parity(off:any, on:any, policy:dict) -> {delta_fp:float, pass:bool}
- I40-15 monitor_feature_drift(dist_off:any, dist_on:any, metrics:list) -> DriftReport
- 伪代码(摘要):
- 对齐:records ← align_timebase(records, {alpha,beta});
- 取窗:按 window_spec 切片并生成 context/history;
- 加工:按 ops 顺序执行 impute → transform → aggregate → standardize;
- 校核:validate_features 执行 check_dim/range/missing 与泄漏扫描;
- 追溯:生成 fingerprint 与 Lineage。
VI. 计量流程与运行图
- Mx-45 特征规范冻结:产出 FeatureCard v*、alpha,beta、impute_policy 与单位口径,落签 fingerprint。
- Mx-46 线下物化与报告:对训练与评测分区物化 x_feat_off,输出 {mu,sigma}、质量报告与直方分布基准。
- Mx-47 线上一致性巡检:采集 x_feat_on 的抽样,计算 delta_fp 与 {D_KL,W1},对超阈发出 TS.error 告警并触发回退(见第10章)。
- Mx-48 漂移与再校准入口:当 DriftReport 触发时,进入第7章校准流程与第12章验收复评。
VII. 验证与测试矩阵
- 最小必测用例:
- 单位一致性:随机抽样执行 check_dim(expr),断言全部通过。
- 泄漏防护:在含 y 的任务中运行特征扫描,断言未出现 lead_k (k>0) 或 y 的函数依赖。
- 标准化稳健性:引入离群值,比较 z 的两种口径(均值方差 vs 中位数-MAD)。
- 窗口端点:在 t1 的边界样本验证包含/排除策略与时区、夏令时转换一致性。
- 线下/线上一致性:计算 delta_fp,断言 delta_fp <= tau_fp。
- 谱口径一致:对时序特征验证 var( x ) ≈ ( ∫ S_xx(f) df ) 与窗口 ENBW 配置一致。
- 边界与极端场景:
迟到/乱序事件、批量重放、空窗、全缺失、极低基数类别、嵌入 emb(W) 冷启动、跨设备 beta ≠ 1 的时基拉伸。
VIII. 交叉引用与依赖
- 依赖《Core.DataSpec》以定义模式、单位与分区;依赖《Core.Metrology》以定义 S_xx(f)、U_w、ENBW 与误差聚合;依赖《Core.Threads》之 TS.* 指标与流水线调度语义。
- 与《EFT.WP.Methods.Repro》第4章共享 hash(·)、fingerprint、血缘追溯与脱敏口径;与第3章、第6章共享 ts 对齐与一致性方程。
IX. 风险、限制与开放问题
- 迟到与回填引起的历史重算窗口污染;建议采用 watermark 与二阶段确认窗口,记录再物化 window_id。
- 类别爆炸与罕见类别抖动导致 onehot/emb 不稳定;需配置 min_freq 与 other_bucket,并建立冷启动策略。
- 外部源的隐式单位变更与时区漂移;必须在 FeatureCard 锁定 unit/timezone,并对上游变更订阅告警。
- 量化与设备特定算子对特征路径的细微影响(如 float16 舍入);需在一致性巡检中加严 tau_fp。
X. 交付件与版本管理
- 交付件:
- FeatureCard/*.json(含 window_spec/ops/params/unit/timebase);
- FeatureLineage.md(来源、血缘、口径与 fingerprint);
- FeatureParityReport(delta_fp, D_KL, W1, mu/sigma);
- QCReport(缺失率、范围违规、维度校核)。
- 版本策略:
- 任何更改 ops、window_spec、impute_policy、{mu,sigma}、{alpha,beta} 或外部 schema,均提升次版本并触发 Mx-47 全量一致性回归;
- 仅更新说明文档与可视化不触发回归,但需滚动 fingerprint 与变更记录(见附录C)。
版权与许可(CC BY 4.0)
版权声明:除另有说明外,《能量丝理论》(含文本、图表、插图、符号与公式)的著作权由作者(“屠广林”先生)享有。
许可方式:本作品采用 Creative Commons 署名 4.0 国际许可协议(CC BY 4.0)进行许可;在注明作者与来源的前提下,允许为商业或非商业目的进行复制、转载、节选、改编与再分发。
署名格式(建议):作者:“屠广林”;作品:《能量丝理论》;来源:energyfilament.org;许可证:CC BY 4.0。
首次发布: 2025-11-11|当前版本:v5.1
协议链接:https://creativecommons.org/licenses/by/4.0/