目录文档-技术白皮书16-EFT.WP.Methods.Cleaning v1.0

第13章 密度、概率与归一化清洗


一句话目标:以显式测度与守恒校核为核心,完成概率密度、物理密度与谱密度的归一化与一致化,并以可审计残差约束发布。


I. 范围与对象

  1. 对象与输入输出
    • 输入:标准化数据集 ds(见第3章),包含计数或强度序列 h(x)、概率量 p(x)、物理密度 rho(r,t) 或 n(r,t)、谱密度 S(f) 或 S(omega)、路径参数 gamma(ell)、时间字段 ts 与 tau_mono、掩码与质量 m, q_score。
    • 输出:归一化后的 p_hat(x)、守恒一致的 rho_hat, n_hat、一致化谱 S_hat,以及归一化误差与守恒残差面板(eps_norm, res_mass, res_energy, delta_parseval)与 manifest.density。
  2. 约束与边界
    • 概率密度无量纲;物理密度具量纲且需显式单位;所有积分均声明域与测度。
    • 流式与离线一致:归一化在 tau_mono 上评估,在 ts 上发布;窗口与核带宽写入 manifest。

II. 名词与变量

  1. 概率域与测度
    • Omega_x 为变量 x 的积分域,测度 dx;p(x) 为概率密度(无量纲)。
    • 归一化误差:eps_norm = | ( ∫_{Omega_x} p_hat(x) dx ) - 1 |。
  2. 物理密度与守恒
    • 体密度:rho(r,t),unit(rho)="kg/m^3", dim(rho)="[M L^-3]"。
    • 数密度:n(r,t),unit(n)="1/m^3", dim(n)="[L^-3]"。
    • 质量守恒残差:res_mass = | ( ∫_V rho_hat dV ) - M_ref |,其中 M_ref 来源于独立计量或契约值。
    • 路径线密度:lambda(ell),unit(lambda) 与对象一致,( ∫_{gamma(ell)} lambda d ell ) 为沿径总量。
  3. 谱密度与能量
    • S(f) 或 S(omega) 为功率谱密度;能量或二范数:E_t = ( ∫ |s(t)|^2 dt ),E_f = ( ∫ |S(f)|^2 df )。
    • 解析式一致差:delta_parseval = | E_t - E_f |(变换约定固定,见 manifest.density.fourier_convention)。
  4. 离散化与权重
    • 直方计数:h_i,区间宽度 Delta_x_i;质量权:w_i = m_i * q_score_i。
    • 离散归一化:p_hat_i = h_i / ( ∑_j h_j * Delta_x_j ),或 p_hat_i = ( w_i * h_i ) / ( ∑_j w_j * h_j * Delta_x_j )。

III. 公设(P113-*)


IV. 最小方程(S113-*)


V. 清洗流程(M10-13 密度与归一化)


VI. 契约与断言

  1. 概率归一化
    eps_norm ≤ tol_norm,p_hat(x) ≥ 0 全域成立。
  2. 守恒与一致
    • res_mass ≤ tol_mass,res_energy ≤ tol_energy,delta_parseval ≤ tol_parseval。
    • 若存在路径密度:( ∫_{gamma(ell)} lambda d ell ) 与体域投影一致,差 ≤ tol_path_consistency。
  3. 单位与变换
    check_dim( integral_result - reference ) = 0;变量变换后 ( ∫ p_y dy ) - 1 = 0 的数值误差 ≤ tol_transform。
  4. 流式一致
    | metric_stream - metric_batch | ≤ tol_streaming_diff,涵盖 eps_norm 与守恒残差。
  5. 质量与缺失
    负值占比 ≤ tol_neg_share;ratio(m=0) ≤ tol_missing_den;q_score_p50 ≥ q_min_den。

VII. 实现绑定(I10-13)


VIII. 交叉引用


IX. 质量度量与风控

  1. 指标
    • eps_norm_p95, res_mass_p95, res_energy_p95, delta_parseval_p95, tol_transform_violation_rate, tol_streaming_diff_p95。
    • 负值修正率:neg_fix_rate;缺失占比:ratio(m=0);质量中位:q_score_p50。
  2. 风控动作
    • eps_norm 超阈:提高分辨率或带宽回退;必要时分段归一化。
    • 守恒残差超阈:触发 conserve_physical_density 或隔离发布;回滚 model_id。
    • delta_parseval 超阈:统一傅里叶约定,重采样抗混叠,或调整窗函数。
    • 变换误差过大:缩小域或细化网格,记录 tol_transform_explain。

小结
本章以测度显式与守恒约束为中心,给出概率密度、物理密度与谱密度的最小归一化与一致化方案,定义 eps_norm, res_mass, res_energy, delta_parseval 等闸门并绑定实现原语 I10-13。产出 ds_den 与 manifest.density,核心键含 Omega/measure, method, eps_norm, res_mass, res_energy, delta_parseval, tol_* , signature, TraceID。


版权与许可(CC BY 4.0)

版权声明:除另有说明外,《能量丝理论》(含文本、图表、插图、符号与公式)的著作权由作者(“屠广林”先生)享有。
许可方式:本作品采用 Creative Commons 署名 4.0 国际许可协议(CC BY 4.0)进行许可;在注明作者与来源的前提下,允许为商业或非商业目的进行复制、转载、节选、改编与再分发。
署名格式(建议):作者:“屠广林”;作品:《能量丝理论》;来源:energyfilament.org;许可证:CC BY 4.0。

首次发布: 2025-11-11|当前版本:v5.1
协议链接:https://creativecommons.org/licenses/by/4.0/