目录文档-技术白皮书09-EFT.WP.Core.Density v1.0

第4章 核密度估计与平滑


I. 目标与范围


II. 核族与基本性质

  1. 核定义与约束
    • K(u) ≥ 0,( ∫ K(u) du = 1 );二阶核满足 mu_1(K) = ( ∫ u K(u) du ) = 0、0 < mu_2(K) = ( ∫ u^2 K(u) du ) < ∞。
    • 记 R(K) = ( ∫ K(u)^2 du ),为方差项常数;mu_r(K) 为 r 阶原始矩。
  2. 常用核示例(记号)
    • 高斯核:K_gauss(u) = ( 1 / sqrt(2*pi) ) * exp( - u^2 / 2 )(无界支撑)。
    • Epanechnikov:K_ep(u) = 0.75 * ( 1 - u^2 )_+(紧支撑,(·)_+ 为非负截断)。
    • Triweight/Biweight/Uniform/Triangular 等按需选取;二阶情形下 Epanechnikov 在 MISE 意义下最优。
  3. 与窗函数对齐
    若将 K 用作平滑窗,其能量口径需报告 U_w = ( 1 / N ) * ∑ w[n]^2 与 ENBW_Hz = fs * ( ∑ w[n]^2 ) / ( ∑ w[n] )^2(见本卷与《Core.Sea》第5章)。

III. 单变量 KDE:定义、偏差与方差

  1. 最小方程 S92-5(核密度估计)
    • S92-5 : kde_h(x) = ( 1 / ( N * h ) ) * ∑_{i=1}^N K( ( x - x_i ) / h )。
    • 加权版:kde_h^w(x) = ( 1 / ( h * ∑ w_i ) ) * ∑ w_i * K( ( x - x_i ) / h ),w_i > 0。
  2. 一阶偏差与方差(大样本近似)
    • bias( kde_h(x) ) ≈ ( h^2 / 2 ) * mu_2(K) * p''(x)。
    • var( kde_h(x) ) ≈ ( 1 / ( N * h ) ) * R(K) * p(x)。
    • 权衡:h ↑ 降低方差、提高偏差;h ↓ 相反。

IV. MISE 与 AMISE(最小方程)

  1. ISE(h) = ( ∫ ( kde_h(x) - p(x) )^2 dx );MISE(h) = E[ ISE(h) ]。
  2. 最小方程 S92-6(AMISE 近似)
    • S92-6 : AMISE(h) ≈ ( R(K) / ( N * h ) ) + ( ( h^4 / 4 ) * mu_2(K)^2 * R( p'' ) ),其中 R( p'' ) = ( ∫ ( p''(x) )^2 dx )。
    • 理想带宽:h_AMISE = ( R(K) / ( mu_2(K)^2 * R( p'' ) * N ) )^(1/5)(需用 pilot 估计 R( p'' ))。

V. 带宽选择:规则、交叉验证与插件法

  1. 规则法(一维)
    • Scott:h_scott = sigma_x * N^(-1/5)。
    • Silverman:h_silver = 0.9 * min( sigma_x , IQR / 1.34 ) * N^(-1/5)。
    • 鲁棒尺度:sigma_robust = min( sigma_x , MAD / 0.6745 ),可替换 sigma_x。
  2. 最小二乘交叉验证(LSCV)
    • CV(h) = ( ∫ ( kde_h(x) )^2 dx ) - ( 2 / N ) * ∑_{i=1}^N kde_{-i,h}( x_i )。
    • kde_{-i,h}( x_i ) = ( 1 / ( (N-1) * h ) ) * ∑_{j ≠ i} K( ( x_i - x_j ) / h )。
    • 取 h* = argmin_h CV(h),并记录 CV(h*)。
  3. 似然交叉验证(LCV)
    LCV(h) = ( 1 / N ) * ∑_{i=1}^N log( kde_{-i,h}( x_i ) ),取 h* = argmax_h LCV(h)。
  4. 插件法(Plug-in)
    用 pilot 核估计 p'' 或用正态近似替换 R( p'' ),回代 h_AMISE。
  5. 网格与线搜索
    在对数尺度上搜索 h:h = h0 * exp( k * Delta );对多峰 CV(h) 使用平滑或黄金分割辅助。

VI. 边界与支撑修正

  1. 反射法(区间 [a,b])
    • 使用镜像样本 x_i^L = 2a - x_i、x_i^R = 2b - x_i:
    • kde_h^ref(x) = ( 1 / ( N * h ) ) * ∑ [ K( ( x - x_i ) / h ) + K( ( x - x_i^L ) / h ) + K( ( x - x_i^R ) / h ) ]。
  2. 变换-回推法(正支撑)
    • y = log( x - a ),在 y 域做 kde_h(y);回推
    • p_X(x) = p_Y( log( x - a ) ) * ( 1 / ( x - a ) )。
  3. 约束归一化
    若仅在 [a,b] 发布:令 Z = ( ∫_a^b kde_h(x) dx ),发布 kde_h(x)/Z 并记录 Z 偏差。

VII. 多变量 KDE 与带宽矩阵

  1. 定义
    • kde_H(x) = ( 1 / ( N * |H|^(1/2) ) ) * ∑ K_d( H^(-1/2) * ( x - x_i ) )。
    • K_d(u) = ∏_{j=1}^d K(u_j)(乘积核)或使用球对称核。
  2. 带宽结构
    • 标量:H = h^2 * I_d;对角:H = diag( h_1^2 , ... , h_d^2 );全矩阵:H = A A^T。
    • Scott 规则(d 维):H = c * Sigma * N^(-2/(d+4)),其中 Sigma 为样本协方差,c 为核常数。
  3. 球化与回变换
    令 z = Sigma^(-1/2) * ( x - mu_x ) 在球化空间选 H_z = h^2 * I_d,再回到原空间 H = Sigma^(1/2) * H_z * Sigma^(1/2)。

VIII. 可变带宽(自适应 KDE)

  1. 两类定义
    • Balloon:kde(x) = ( 1 / ( N * h(x) ) ) * ∑ K( ( x - x_i ) / h(x) )。
    • Sample-point:kde(x) = ( 1 / N ) * ∑ ( 1 / h_i ) * K( ( x - x_i ) / h_i )。
  2. 典型设定
    先以 pilot h0 得 kde_0(x),设 h_i = h0 * ( kde_0( x_i ) )^( -alpha ),alpha ∈ [0 , 1/2],常用 alpha = 1/2。
  3. 优缺点
    低密区放宽带宽、降方差;高密区收紧带宽、降偏差;需记录 pilot 口径与 alpha。

IX. 去卷积 KDE(含测量噪声)

  1. 观测模型
    Y = X + E,噪声密度 phi_e 已知,目标为 p_X。
  2. 频域构造
    • 令 Phi_K(t) = Fourier{ K }(t),Phi_e(t) = Fourier{ phi_e }(t):
    • 构造去卷积核的频谱 Phi_L(t) = Phi_K(t) / Phi_e( t / h ),再 L = Fourier^{-1}{ Phi_L }。
    • 估计量:kde_h^deconv(x) = ( 1 / ( N * h ) ) * ∑ L( ( x - y_i ) / h )。
  3. 正则与稳定性
    对 |Phi_e(·)| 小的频段施加截断或 Tikhonov:Phi_L(t) = Phi_K(t) * conj( Phi_e( t / h ) ) / ( |Phi_e( t / h )|^2 + lambda ),记录 lambda。

X. 衍生量与集合估计


XI. 流式与时间加权


XII. 质量控制与发布要点


XIII. 实现绑定与流程 Mx-93(带宽选择器)


XIV. 接口契约(I90 对齐)

  1. kde_build(data:any, kernel:str="gaussian", h:float|None=None, rule:str|None=None) -> PdfRef
    • 输入:kernel ∈ {"gaussian","epanechnikov",...};h=None 时由 rule ∈ {"scott","silverman","cv","plugin"} 决定。
    • 输出:包含 {"K":..., "h|H":..., "method":..., "score":..., "support":..., "pilot":...} 与评估器句柄。
  2. kde_eval(pdf:PdfRef, x:any, normalize:bool=True) -> array
    若 normalize=false,返回原始未重标的数值以便自定义归一与边界修正。
  3. 其他:hist_density 作为对照基线;renormalize 用于发布前一致化。

XV. 清单字段(最小集合,供入湖)


XVI. 跨卷引用与一致性


XVII. 本章要点回顾


版权与许可(CC BY 4.0)

版权声明:除另有说明外,《能量丝理论》(含文本、图表、插图、符号与公式)的著作权由作者(“屠广林”先生)享有。
许可方式:本作品采用 Creative Commons 署名 4.0 国际许可协议(CC BY 4.0)进行许可;在注明作者与来源的前提下,允许为商业或非商业目的进行复制、转载、节选、改编与再分发。
署名格式(建议):作者:“屠广林”;作品:《能量丝理论》;来源:energyfilament.org;许可证:CC BY 4.0。

首次发布: 2025-11-11|当前版本:v5.1
协议链接:https://creativecommons.org/licenses/by/4.0/