目录 / 文档-技术白皮书 / 16-EFT.WP.Methods.Cleaning v1.0
一句话目标:固化清洗域的前置公设与最小方程集,作为后续所有流程 M10-* 与实现绑定 I10-* 的统一判据与引用源。
I. 适用范围与前置条件
- 适用范围
- 适用于离线批处理、在线服务、事件流三类清洗形态,统一采用本章的公设与最小方程。
- 适用于时间序列、路径参数化观测、事件日志、标量与张量字段、参考环境记录。
- 前置条件
- 采用统一编号:公设 P10x-*,最小方程 S10x-*。
- 采用统一时基与到达时口径:内部评估在 tau_mono,发布采用 ts;到达时必须计算两口径并记录差异。
- 采用统一测度与单位规则:任何积分显式给出域与测度,任何表达在发布前通过 check_dim(expr)。
II. 符号与固定常量
- 时间与同步:tau_mono,ts,offset,skew,J,Delta_t。
- 路径与测度:gamma(ell),d ell,L_gamma。
- 到达时与介质:T_arr,n_eff,c_ref,delta_form,tol_Tarr。
- 计量与单位:unit(x),dim(x),check_dim(expr),u(x),U = k * u_c。
- 质量与缺失:m ∈ {0,1},q_score ∈ [0,1],drift。
- 环境与修正:RefCond,corr_env(x; RefCond)。
- 冲突名强制:T_fil 与 T_trans 不可混用,n 与 n_eff 严格区分。
III. 公设集(P102-*)
- P102-01 单位与量纲一致公设
任何进入发布面的表达在发布前满足 check_dim(expr) = true,禁止无量纲与有量纲对象混写。 - P102-02 两口径并行公设
涉及到达时的场景必须同时计算两口径并落盘差异,后续契约基于差异的阈值进行判定。 - P102-03 显式路径与测度公设
任一积分显式标注域与测度,包括路径积分的 gamma(ell) 与 d ell,不得省略。 - P102-04 单调时间与路径公设
non_decreasing(tau_mono) = true,non_decreasing(ell) = true,违规需纠偏或隔离。 - P102-05 时基一体化公设
内部评估在 tau_mono,对外发布映射到 ts,并伴随 offset,skew,J 的估计与不确定度。 - P102-06 环境引用显式公设
任何环境修正以 corr_env(x; RefCond) 表示,RefCond 必须落盘并可审计。 - P102-07 缺失显式公设
缺失采用 m ∈ {0,1} 标注,插补或删除必须在清单记录方法与影响范围。 - P102-08 质量分级与降权公设
数据质量以 q_score 表示,清洗可对低质量片段降权或隔离,策略需在契约中声明。 - P102-09 契约优先发布公设
未达成契约阈值的产物不得进入冻结与签名流程。 - P102-10 追溯与签名公设
发布工件与清单以 hash_sha256(blob) 追溯并签名,保证不可抵赖与可复现。 - P102-11 阈值可配置可审计公设
所有阈值采用清单参数化,并附带来源与变更记录,保证审计一致性。 - P102-12 冲突名强制公设
T_fil 与 T_trans,n 与 n_eff 等冲突名不可混用,任何歧义视为契约失败。
IV. 最小方程集(S102-*)
- S102-01 时间映射
ts = map_to_pub( tau_mono ; offset, skew, J ) - S102-02 到达时两口径
T_arr_form1 = ( 1 / c_ref ) * ( ∫ n_eff d ell )
T_arr_form2 = ( ∫ ( n_eff / c_ref ) d ell ) - S102-03 两口径差异度量
delta_form = | T_arr_form1 - T_arr_form2 | - S102-04 路径长度与单调性约束
L_gamma = ( ∫_gamma 1 d ell ),并检查 non_decreasing(ell) = true - S102-05 概率与物理密度口径
( ∫_Omega p(x) dx ) = 1
mass_conserve ≈ sum_i( rho_i * DeltaV_i ) = const ± tol_mass - S102-06 缺失率与覆盖度
coverage = 1 - mean(m),其中 m = 1 表示缺失。 - S102-07 质量评分基式
q_score = w_cov * coverage + w_cons * consis + w_unit * unit_ok + w_arr * ( 1 - norm_delta ) + w_drift * ( 1 - drift_norm )
其中 unit_ok ∈ {0,1},norm_delta = min( 1 , delta_form / tol_Tarr ),drift_norm ∈ [0,1],权重满足 sum w_* = 1。 - S102-08 不确定度传播(无相关近似)
u^2(y) = sum_j ( ( ∂f / ∂x_j )^2 * u^2(x_j) )
如需相关项,加入 2 * sum_{i<j} ( ( ∂f / ∂x_i )( ∂f / ∂x_j ) * cov(x_i, x_j) )。 - S102-09 漂移度量候选
drift = D_KL( p_t || p_ref ),或 drift = KS( F_t , F_ref ),方法在清单注明并统一阈值 tol_drift。 - S102-10 去重保留规则
keep(k) = argmax_{cand ∈ C(k)} { α1 * q_score - α2 * | ts - ts_ref | - α3 * dup_penalty }
参数 α1, α2, α3 在清单中声明。 - S102-11 契约总体通过
contract_ok = all( tests_i = true )
其中 tests_i ∈ {unique(pk), non_decreasing(ts|ell), check_dim_set, delta_form ≤ tol_Tarr, eps_norm ≤ tol_norm, res_mass ≤ tol_mass}。 - S102-12 签名与发布冻结
signature = sign( hash_sha256( blob ), issuer )
manifest_signed = verify( signature , issuer ) = true
V. 控制式与默认阈值口径
- 控制式
pass = check_dim ∧ arrival_forms ∧ contract_ok ∧ manifest_signed - 阈值口径
- 到达时一致阈值:delta_form ≤ tol_Tarr。
- 概率归一阈值:eps_norm ≤ tol_norm。
- 质量下限:q_score ≥ q_min。
- 漂移上限:drift ≤ tol_drift。
- 守恒残差:res_mass ≤ tol_mass。
具体数值在清单中参数化,并在变更记录中追踪。
VI. 用法说明与引用规则
- 引用顺序
先用 P102-* 约束语义与可行域,再用 S102-* 进行计算与断言,最后由 M10-* 执行流程与落盘。 - 跨章复用
两口径与时间映射在第5章与第6章复用;概率与密度在第13章复用;不确定度传播在附录E复用;去重与契约在第9章与第10章复用。 - 冲突与优先级
公设优先于流程,契约优先于发布,签名优先于分发。
VII. 交叉引用
- 时间语义与到达时:见第5章,第6章。
- 契约与发布冻结:见第10章。
- 质量评分与审计:见第14章。
- 概率密度与归一化:见第13章。
- 接口与实现绑定:见附录A。
- 阈值与策略库:见附录B。
- 不确定度传播:见附录E。
小结
本章以 P102-* 固化语义边界与强约束,以 S102-* 给出最小可执行方程与控制式。自此,清洗各环节具备统一的到达时口径、时基语义、测度与量纲守恒标准,并以契约与签名作为发布合规的最后门槛。
版权与许可(CC BY 4.0)
版权声明:除另有说明外,《能量丝理论》(含文本、图表、插图、符号与公式)的著作权由作者(“屠广林”先生)享有。
许可方式:本作品采用 Creative Commons 署名 4.0 国际许可协议(CC BY 4.0)进行许可;在注明作者与来源的前提下,允许为商业或非商业目的进行复制、转载、节选、改编与再分发。
署名格式(建议):作者:“屠广林”;作品:《能量丝理论》;来源:energyfilament.org;许可证:CC BY 4.0。
首次发布: 2025-11-11|当前版本:v5.1
协议链接:https://creativecommons.org/licenses/by/4.0/