目录 / 文档-技术白皮书 / 16-EFT.WP.Methods.Cleaning v1.0
一句话目标:以显式测度与守恒校核为核心,完成概率密度、物理密度与谱密度的归一化与一致化,并以可审计残差约束发布。
I. 范围与对象
- 对象与输入输出
- 输入:标准化数据集 ds(见第3章),包含计数或强度序列 h(x)、概率量 p(x)、物理密度 rho(r,t) 或 n(r,t)、谱密度 S(f) 或 S(omega)、路径参数 gamma(ell)、时间字段 ts 与 tau_mono、掩码与质量 m, q_score。
- 输出:归一化后的 p_hat(x)、守恒一致的 rho_hat, n_hat、一致化谱 S_hat,以及归一化误差与守恒残差面板(eps_norm, res_mass, res_energy, delta_parseval)与 manifest.density。
- 约束与边界
- 概率密度无量纲;物理密度具量纲且需显式单位;所有积分均声明域与测度。
- 流式与离线一致:归一化在 tau_mono 上评估,在 ts 上发布;窗口与核带宽写入 manifest。
II. 名词与变量
- 概率域与测度
- Omega_x 为变量 x 的积分域,测度 dx;p(x) 为概率密度(无量纲)。
- 归一化误差:eps_norm = | ( ∫_{Omega_x} p_hat(x) dx ) - 1 |。
- 物理密度与守恒
- 体密度:rho(r,t),unit(rho)="kg/m^3", dim(rho)="[M L^-3]"。
- 数密度:n(r,t),unit(n)="1/m^3", dim(n)="[L^-3]"。
- 质量守恒残差:res_mass = | ( ∫_V rho_hat dV ) - M_ref |,其中 M_ref 来源于独立计量或契约值。
- 路径线密度:lambda(ell),unit(lambda) 与对象一致,( ∫_{gamma(ell)} lambda d ell ) 为沿径总量。
- 谱密度与能量
- S(f) 或 S(omega) 为功率谱密度;能量或二范数:E_t = ( ∫ |s(t)|^2 dt ),E_f = ( ∫ |S(f)|^2 df )。
- 解析式一致差:delta_parseval = | E_t - E_f |(变换约定固定,见 manifest.density.fourier_convention)。
- 离散化与权重
- 直方计数:h_i,区间宽度 Delta_x_i;质量权:w_i = m_i * q_score_i。
- 离散归一化:p_hat_i = h_i / ( ∑_j h_j * Delta_x_j ),或 p_hat_i = ( w_i * h_i ) / ( ∑_j w_j * h_j * Delta_x_j )。
III. 公设(P113-*)
- P113-01 测度显式公设
任一密度相关积分必须明确域与测度,例如 ( ∫_{Omega_x} p(x) dx ) = 1、( ∫_V rho dV )、( ∫_{gamma(ell)} lambda d ell )。 - P113-02 量纲与单位公设
概率密度无量纲;物理密度与谱密度的 unit(*) 与 dim(*) 必记录,check_dim 必通过(见第4章)。 - P113-03 非负性与可积性公设
发布前满足 p_hat(x) ≥ 0,rho_hat ≥ 0,S_hat ≥ 0,且积分有限。 - P113-04 变换一致公设
变量变换与域映射保积分:( ∫_{Omega_x} p(x) dx ) = ( ∫_{Omega_y} p_y(y) dy ),其中 p_y(y) = p( x(y) ) * | det( ∂x / ∂y ) |。 - P113-05 守恒对齐公设
对存在守恒量的场,发布前应满足 res_mass ≤ tol_mass、res_energy ≤ tol_energy 或给出隔离说明。 - P113-06 流式窗口一致公设
滑动窗口 Delta_t 内的归一化与守恒残差与离线重算差异 ≤ tol_streaming_diff。
IV. 最小方程(S113-*)
- S113-01 概率归一化(连续/离散)
连续:( ∫_{Omega_x} p_hat(x) dx ) = 1。
离散:∑_i p_hat_i * Delta_x_i = 1,p_hat_i ≥ 0。
误差:eps_norm = | ∑_i p_hat_i * Delta_x_i - 1 | 或连续对应式。 - S113-02 守恒残差
质量:res_mass = | ( ∫_V rho_hat dV ) - M_ref |。
能量:res_energy = | ( ∫_{f1}^{f2} S_hat(f) df ) - E_ref |(或以 E_t 为参考)。 - S113-03 Parseval 一致性
E_t = ( ∫ |s(t)|^2 dt ),E_f = ( ∫ |S(f)|^2 df ),delta_parseval = | E_t - E_f |。 - S113-04 变量变换
p_y(y) = p_x( x(y) ) * | det( ∂x / ∂y ) |;
物理密度:rho_y(y) = rho_x( x(y) ) / | det( ∂y / ∂x ) |(确保 ( ∫ rho_y dy ) = ( ∫ rho_x dx ))。 - S113-05 质量/数目与密度关系
M = ( ∫_V rho dV ),N = ( ∫_V n dV );沿径 gamma(ell):N_gamma = ( ∫_{gamma(ell)} n_line d ell )。 - S113-06 质量面权与缺失治理
p_hat_i = ( w_i * h_i ) / ( ∑_j w_j * h_j * Delta_x_j ),w_i = m_i * q_score_i,m_i ∈ {0,1}。 - S113-07 数值积分误差控制
设数值积分给出 I_num、参考真值或高精度 I_ref,
err_quad = | I_num - I_ref | ≤ tol_quad;对自适应求积,记录 depth 与余差估计。
V. 清洗流程(M10-13 密度与归一化)
- 明确域与测度
为每一密度字段声明 (Omega, measure):如 Omega_x, dx;V, dV;gamma(ell), d ell;[f1,f2], df。 - 单位与量纲校核
执行 repair_units 与 check_dim,断言概率密度无量纲,物理/谱密度单位正确(见第4章)。 - 缺失与权重准备
构造 w_i = m_i * q_score_i;必要时以 RefCond 先一致化(见第12章)。 - 密度估计与离散化
直方或核估计得到 p_hat(x);记录 binning 或 kde.bandwidth 至 manifest.density. - 概率归一化与非负化
归一到 1,执行 clip(p_hat, 0, +inf);计算 eps_norm 并校核阈值。 - 守恒一致化
以 M_ref, E_ref 或时间域积分为锚,校核 res_mass, res_energy 或 delta_parseval;必要时执行保总量重分配(见 S113-08)。 - 变量变换与跨域一致
进行所需的 x -> y 变换,应用 S113-04;保证两域积分相等,记录雅可比与边界。 - 数值误差控制与审计
估计 err_quad,对异常 bin/频段打标;流式场景对窗口结果与离线重算做差 ≤ tol_streaming_diff。 - 落盘与签名
产出 ds_den 与 manifest.density:Omega/measure、method、tol_*、eps_norm、res_mass、res_energy、delta_parseval、signature、TraceID。
VI. 契约与断言
- 概率归一化
eps_norm ≤ tol_norm,p_hat(x) ≥ 0 全域成立。 - 守恒与一致
- res_mass ≤ tol_mass,res_energy ≤ tol_energy,delta_parseval ≤ tol_parseval。
- 若存在路径密度:( ∫_{gamma(ell)} lambda d ell ) 与体域投影一致,差 ≤ tol_path_consistency。
- 单位与变换
check_dim( integral_result - reference ) = 0;变量变换后 ( ∫ p_y dy ) - 1 = 0 的数值误差 ≤ tol_transform。 - 流式一致
| metric_stream - metric_batch | ≤ tol_streaming_diff,涵盖 eps_norm 与守恒残差。 - 质量与缺失
负值占比 ≤ tol_neg_share;ratio(m=0) ≤ tol_missing_den;q_score_p50 ≥ q_min_den。
VII. 实现绑定(I10-13)
- estimate_density(ds, field, method, params) -> p_hat, meta
直方或核估计;返回 p_hat(x)、Omega_x、binning/bandwidth。 - normalize_pdf(p_hat, Omega_x, dx, weights) -> p_hat' , eps_norm
执行加权归一化与非负化,给出 eps_norm。 - conserve_physical_density(field, target_total, domain, measure) -> field_hat, res_mass
在保持形状受限的前提下重分配以满足总量(比例缩放或最小改动优化)。 - fourier_consistency(s, S, convention) -> delta_parseval, res_energy
以选定变换约定评估时间/频域一致性。 - change_of_measure(obj, transform) -> obj_transformed, tol_transform
实现 S113-04 的变换与误差估计。 - assert_density_contract(ds, tests) -> report
执行本章契约断言并生成报告与失败定位。 - bin_conserve(hist, target_total, Delta_x) -> hist'
直方图保总量修正器,输出修正后的 hist' 与残差。
VIII. 交叉引用
- 核心密度与归一化口径:见《EFT.WP.Core.Density v1.0》。
- 模式与字段单位:见《EFT.WP.Core.DataSpec v1.0》。
- 采集域与到达时:见《EFT.WP.Core.Sea v1.0》与本卷第6章。
- 时基与窗口:见本卷第5章。
- 环境一致化:见本卷第12章。
- 合规与发布冻结:见本卷第10章。
IX. 质量度量与风控
- 指标
- eps_norm_p95, res_mass_p95, res_energy_p95, delta_parseval_p95, tol_transform_violation_rate, tol_streaming_diff_p95。
- 负值修正率:neg_fix_rate;缺失占比:ratio(m=0);质量中位:q_score_p50。
- 风控动作
- eps_norm 超阈:提高分辨率或带宽回退;必要时分段归一化。
- 守恒残差超阈:触发 conserve_physical_density 或隔离发布;回滚 model_id。
- delta_parseval 超阈:统一傅里叶约定,重采样抗混叠,或调整窗函数。
- 变换误差过大:缩小域或细化网格,记录 tol_transform_explain。
小结
本章以测度显式与守恒约束为中心,给出概率密度、物理密度与谱密度的最小归一化与一致化方案,定义 eps_norm, res_mass, res_energy, delta_parseval 等闸门并绑定实现原语 I10-13。产出 ds_den 与 manifest.density,核心键含 Omega/measure, method, eps_norm, res_mass, res_energy, delta_parseval, tol_* , signature, TraceID。
版权与许可(CC BY 4.0)
版权声明:除另有说明外,《能量丝理论》(含文本、图表、插图、符号与公式)的著作权由作者(“屠广林”先生)享有。
许可方式:本作品采用 Creative Commons 署名 4.0 国际许可协议(CC BY 4.0)进行许可;在注明作者与来源的前提下,允许为商业或非商业目的进行复制、转载、节选、改编与再分发。
署名格式(建议):作者:“屠广林”;作品:《能量丝理论》;来源:energyfilament.org;许可证:CC BY 4.0。
首次发布: 2025-11-11|当前版本:v5.1
协议链接:https://creativecommons.org/licenses/by/4.0/