目录 / 文档-技术白皮书 / 16-EFT.WP.Methods.Cleaning v1.0
一句话目标:界定清洗的对象、边界与合规目标,给出最小可执行闭环与发布判据,使任何输入 D_raw 经流程 M10-* 转化为可审计的 D_clean 与 manifest。
I. 范围与对象
- 覆盖场景
- 离线批处理,在线服务,事件流三类运行形态,统一遵循同一清洗闭环与同一发布判据。
- 对象包含时间序列、路径参数化观测、事件日志、标量与张量字段、参考环境记录。
- 输入与输出
- 输入:D_raw,携带 schema_ver 与最小清单键。
- 输出:D_clean 与 manifest,包含 timing,arrival_forms,qc,contracts 四类必要域。
- 非目标与边界
- 不负责物理建模与解释,不替代标定与溯源的实验规范。
- 不规定存储实现与编排引擎,仅规定接口、契约与断言。
II. 名词与变量
- 数据与键:D_raw,D_clean,rid,pk,idx_k,schema_ver,TraceID。
- 时间与同步:tau_mono(内部评估基准),ts(对外发布时间),offset,skew,J,Delta_t。
- 路径与测度:gamma(ell),d ell,L_gamma = ( ∫_gamma 1 d ell )。
- 到达时口径:T_arr,n_eff,c_ref,delta_form,tol_Tarr。
- 计量与单位:unit(x),dim(x),check_dim(expr),u(x),U = k * u_c。
- 质量与缺失:m ∈ {0,1},q_score ∈ [0,1],drift。
- 环境与修正:RefCond,corr_env(x; RefCond)。
- 冲突名强制:T_fil 与 T_trans 不可混用,n 与 n_eff 严格区分。
III. 公设(P101-*)
- P101-1 清洗闭环公设
cleaning_loop = {schema, units_dims, timebase, path_arrival, quality_contracts, freeze_release} 构成最小闭环,缺一不可。 - P101-2 两口径并行公设
任意使用 T_arr 的场景必须同步计算两口径并落盘差异。 - P101-3 显式测度与域公设
任一积分表达都要显式给出域与测度,包括路径积分的 gamma(ell) 与 d ell。 - P101-4 单调时间与路径公设
non_decreasing(tau_mono) 与 non_decreasing(ell) 属于强契约,违背即为数据错误或需纠偏。 - P101-5 单位量纲一致公设
发布前必须通过 check_dim(expr),禁止无量纲与有量纲对象混写。 - P101-6 契约优先发布公设
未满足契约与阈值的产物不得进入冻结与签名流程。
IV. 最小方程(S101-*)
- S101-1 发布判据
pass = check_dim ∧ arrival_forms ∧ contract_ok ∧ manifest_signed - S101-2 到达时两口径
T_arr_form1 = ( 1 / c_ref ) * ( ∫ n_eff d ell )
T_arr_form2 = ( ∫ ( n_eff / c_ref ) d ell ) - S101-3 两口径差异度量
delta_form = | T_arr_form1 - T_arr_form2 | - S101-4 路径长度与单调性
L_gamma = ( ∫_gamma 1 d ell ),并要求 non_decreasing(ell) = true - S101-5 时间映射
ts = map_to_pub( tau_mono ; offset, skew, J ) - S101-6 概率与密度规范
( ∫_Omega p(x) dx ) = 1 为概率密度归一化,物理密度以 unit(rho) 与 dim(rho) 明确量纲。
V. 输入输出与清单
- manifest.schema = {schema_ver, registry, units_policy}
- manifest.timing = {tau_mono, ts, offset, skew, J, window = Delta_t}
- manifest.arrival_forms = {gamma(ell), d ell, c_ref, n_eff, T_arr_form1, T_arr_form2, delta_form, tol_Tarr}
- manifest.qc = {q_score, m_mask, drift}
- manifest.contracts = {unique(pk), non_decreasing(ts|ell), check_dim_set, eps_norm, res_mass, tol_Tarr}
- manifest.signature = {hash_sha256(blob), signature, issuer}
VI. 清洗流程(M10-1 总流程)
- standardize_names(ds, registry)
统一字段命名与别名映射,校验 schema_ver 与必备键。 - repair_units(ds, policy)
单位归一与 check_dim(expr) 校核,失败进入隔离或回滚。 - align_timebase(ds, sync_ref)
建立 tau_mono,映射 ts,估计并记录 offset,skew,J。 - enforce_arrival_time_convention(ds)
参数化 gamma(ell) 与 d ell,计算 T_arr_form1 与 T_arr_form2,给出 delta_form 并对比 tol_Tarr。 - handle_missing(ds, strategy)
输出 m 掩码,插补或环境修正以 corr_env(x; RefCond) 落盘,伴随不确定度。 - detect_outlier(ds, method, fields)
离群、突变与漂移标注,并联动 q_score 与降权策略。 - deduplicate(ds, keys, semantics) 与参照完整性
去重、外键一致性与孤儿记录清理。 - assert_contract(ds, tests)
执行唯一性、单调性、量纲、一致性与范围断言,形成可审计报告。 - freeze_release(ds, tag)
生成 manifest,计算 hash_sha256(blob) 并签名,完成发布冻结。
VII. 契约与断言
- 唯一与完整性:unique(pk),foreign_key。
- 单调性:non_decreasing(ts),non_decreasing(ell)。
- 量纲一致:check_dim(y - f(x)) = 0。
- 到达时一致:delta_form ≤ tol_Tarr。
- 归一与守恒:eps_norm ≤ tol_norm,res_mass ≤ tol_mass。
- 缺失与质量:coverage = 1 - mean(m),q_score ≥ q_min。
- 漂移监测:drift ≤ tol_drift,窗口 Delta_t 与自由度固定在清单中。
VIII. 边界、风险与回退
- 边界
- 清洗不替代设备标定,不推断缺失样本的物理真值,不进行语义标注。
- 两口径差异超阈值时,优先排查路径与测度定义,再考虑环境修正。
- 风险
- 非单调路径或时间轴导致到达时估计偏差。
- 未显式单位与量纲引发的隐性错误。
- 回退
- 保持上一个 tag 的 freeze_release 工件可在线回切。
- 契约失败时输出最小可诊断 manifest 报告,不发布数据面。
IX. 交叉引用
- 采集与时间语义,参见《EFT.WP.Core.Sea v1.0》。
- 模式、字段与清单,参见《EFT.WP.Core.DataSpec v1.0》。
- 通道与背压协同,参见《EFT.WP.Core.Threads v1.0》。
- 密度、测度与归一化,参见《EFT.WP.Core.Density v1.0》。
- 量纲与计量流程,参见《EFT.WP.Core.Metrology v1.0》《EFT.WP.Core.Parameters v1.0》《EFT.WP.Core.Errors v1.0》。
小结
本章确立了清洗域的对象与边界,定义了六要素闭环、两口径一致化与显式测度三项核心约束,给出了发布判据 S101-1 与流程 M10-1。后续各章将沿用本章的编号、变量与契约,展开到模式绑定、计量一致、时间与路径、质量与合规、冻结与审计的全链路实现。
版权与许可(CC BY 4.0)
版权声明:除另有说明外,《能量丝理论》(含文本、图表、插图、符号与公式)的著作权由作者(“屠广林”先生)享有。
许可方式:本作品采用 Creative Commons 署名 4.0 国际许可协议(CC BY 4.0)进行许可;在注明作者与来源的前提下,允许为商业或非商业目的进行复制、转载、节选、改编与再分发。
署名格式(建议):作者:“屠广林”;作品:《能量丝理论》;来源:energyfilament.org;许可证:CC BY 4.0。
首次发布: 2025-11-11|当前版本:v5.1
协议链接:https://creativecommons.org/licenses/by/4.0/