目录 / 文档-技术白皮书 / 09-EFT.WP.Core.Density v1.0
I. 目标与范围
- 给出核密度估计 kde_h(x) 的统一定义、误差分解与带宽 h 选择准则,形成可审计的发布流程 Mx-93。
- 兼顾单变量与多变量、固定带宽与自适应带宽、边界修正与去卷积情形;与本卷 S92-* 编号、与《Core.Sea》窗口口径 U_w、ENBW_Hz 保持一致。
- 产出物:最小方程 S92-5、S92-6,实现绑定 I90 2,清单字段与质量阈值。
II. 核族与基本性质
- 核定义与约束
- K(u) ≥ 0,( ∫ K(u) du = 1 );二阶核满足 mu_1(K) = ( ∫ u K(u) du ) = 0、0 < mu_2(K) = ( ∫ u^2 K(u) du ) < ∞。
- 记 R(K) = ( ∫ K(u)^2 du ),为方差项常数;mu_r(K) 为 r 阶原始矩。
- 常用核示例(记号)
- 高斯核:K_gauss(u) = ( 1 / sqrt(2*pi) ) * exp( - u^2 / 2 )(无界支撑)。
- Epanechnikov:K_ep(u) = 0.75 * ( 1 - u^2 )_+(紧支撑,(·)_+ 为非负截断)。
- Triweight/Biweight/Uniform/Triangular 等按需选取;二阶情形下 Epanechnikov 在 MISE 意义下最优。
- 与窗函数对齐
若将 K 用作平滑窗,其能量口径需报告 U_w = ( 1 / N ) * ∑ w[n]^2 与 ENBW_Hz = fs * ( ∑ w[n]^2 ) / ( ∑ w[n] )^2(见本卷与《Core.Sea》第5章)。
III. 单变量 KDE:定义、偏差与方差
- 最小方程 S92-5(核密度估计)
- S92-5 : kde_h(x) = ( 1 / ( N * h ) ) * ∑_{i=1}^N K( ( x - x_i ) / h )。
- 加权版:kde_h^w(x) = ( 1 / ( h * ∑ w_i ) ) * ∑ w_i * K( ( x - x_i ) / h ),w_i > 0。
- 一阶偏差与方差(大样本近似)
- bias( kde_h(x) ) ≈ ( h^2 / 2 ) * mu_2(K) * p''(x)。
- var( kde_h(x) ) ≈ ( 1 / ( N * h ) ) * R(K) * p(x)。
- 权衡:h ↑ 降低方差、提高偏差;h ↓ 相反。
IV. MISE 与 AMISE(最小方程)
- ISE(h) = ( ∫ ( kde_h(x) - p(x) )^2 dx );MISE(h) = E[ ISE(h) ]。
- 最小方程 S92-6(AMISE 近似)
- S92-6 : AMISE(h) ≈ ( R(K) / ( N * h ) ) + ( ( h^4 / 4 ) * mu_2(K)^2 * R( p'' ) ),其中 R( p'' ) = ( ∫ ( p''(x) )^2 dx )。
- 理想带宽:h_AMISE = ( R(K) / ( mu_2(K)^2 * R( p'' ) * N ) )^(1/5)(需用 pilot 估计 R( p'' ))。
V. 带宽选择:规则、交叉验证与插件法
- 规则法(一维)
- Scott:h_scott = sigma_x * N^(-1/5)。
- Silverman:h_silver = 0.9 * min( sigma_x , IQR / 1.34 ) * N^(-1/5)。
- 鲁棒尺度:sigma_robust = min( sigma_x , MAD / 0.6745 ),可替换 sigma_x。
- 最小二乘交叉验证(LSCV)
- CV(h) = ( ∫ ( kde_h(x) )^2 dx ) - ( 2 / N ) * ∑_{i=1}^N kde_{-i,h}( x_i )。
- kde_{-i,h}( x_i ) = ( 1 / ( (N-1) * h ) ) * ∑_{j ≠ i} K( ( x_i - x_j ) / h )。
- 取 h* = argmin_h CV(h),并记录 CV(h*)。
- 似然交叉验证(LCV)
LCV(h) = ( 1 / N ) * ∑_{i=1}^N log( kde_{-i,h}( x_i ) ),取 h* = argmax_h LCV(h)。 - 插件法(Plug-in)
用 pilot 核估计 p'' 或用正态近似替换 R( p'' ),回代 h_AMISE。 - 网格与线搜索
在对数尺度上搜索 h:h = h0 * exp( k * Delta );对多峰 CV(h) 使用平滑或黄金分割辅助。
VI. 边界与支撑修正
- 反射法(区间 [a,b])
- 使用镜像样本 x_i^L = 2a - x_i、x_i^R = 2b - x_i:
- kde_h^ref(x) = ( 1 / ( N * h ) ) * ∑ [ K( ( x - x_i ) / h ) + K( ( x - x_i^L ) / h ) + K( ( x - x_i^R ) / h ) ]。
- 变换-回推法(正支撑)
- y = log( x - a ),在 y 域做 kde_h(y);回推
- p_X(x) = p_Y( log( x - a ) ) * ( 1 / ( x - a ) )。
- 约束归一化
若仅在 [a,b] 发布:令 Z = ( ∫_a^b kde_h(x) dx ),发布 kde_h(x)/Z 并记录 Z 偏差。
VII. 多变量 KDE 与带宽矩阵
- 定义
- kde_H(x) = ( 1 / ( N * |H|^(1/2) ) ) * ∑ K_d( H^(-1/2) * ( x - x_i ) )。
- K_d(u) = ∏_{j=1}^d K(u_j)(乘积核)或使用球对称核。
- 带宽结构
- 标量:H = h^2 * I_d;对角:H = diag( h_1^2 , ... , h_d^2 );全矩阵:H = A A^T。
- Scott 规则(d 维):H = c * Sigma * N^(-2/(d+4)),其中 Sigma 为样本协方差,c 为核常数。
- 球化与回变换
令 z = Sigma^(-1/2) * ( x - mu_x ) 在球化空间选 H_z = h^2 * I_d,再回到原空间 H = Sigma^(1/2) * H_z * Sigma^(1/2)。
VIII. 可变带宽(自适应 KDE)
- 两类定义
- Balloon:kde(x) = ( 1 / ( N * h(x) ) ) * ∑ K( ( x - x_i ) / h(x) )。
- Sample-point:kde(x) = ( 1 / N ) * ∑ ( 1 / h_i ) * K( ( x - x_i ) / h_i )。
- 典型设定
先以 pilot h0 得 kde_0(x),设 h_i = h0 * ( kde_0( x_i ) )^( -alpha ),alpha ∈ [0 , 1/2],常用 alpha = 1/2。 - 优缺点
低密区放宽带宽、降方差;高密区收紧带宽、降偏差;需记录 pilot 口径与 alpha。
IX. 去卷积 KDE(含测量噪声)
- 观测模型
Y = X + E,噪声密度 phi_e 已知,目标为 p_X。 - 频域构造
- 令 Phi_K(t) = Fourier{ K }(t),Phi_e(t) = Fourier{ phi_e }(t):
- 构造去卷积核的频谱 Phi_L(t) = Phi_K(t) / Phi_e( t / h ),再 L = Fourier^{-1}{ Phi_L }。
- 估计量:kde_h^deconv(x) = ( 1 / ( N * h ) ) * ∑ L( ( x - y_i ) / h )。
- 正则与稳定性
对 |Phi_e(·)| 小的频段施加截断或 Tikhonov:Phi_L(t) = Phi_K(t) * conj( Phi_e( t / h ) ) / ( |Phi_e( t / h )|^2 + lambda ),记录 lambda。
X. 衍生量与集合估计
- 密度导数
∂^m kde_h / ∂x^m = ( 1 / ( N * h^(m+1) ) ) * ∑ K^(m)( ( x - x_i ) / h )。 - 等密度集与最高密度区
C_tau = { x : kde_h(x) ≥ tau };选择 tau 使 ( ∫_{C_tau} kde_h(x) dx ) = q,q ∈ (0,1)。 - 置信带(启发式)
基于自助法在网格上给出 kde_h(x) 的百分位带,报告重采样次数与随机种子。
XI. 流式与时间加权
- 指数衰减权重
w_i = exp( - ( ts_now - ts_i ) / tau ),tau 为时间常数;用 kde_h^w(x) 在线更新(见上式)。 - 窗口滚动
维护双端队列 q_len 与累计权重 ∑ w_i,入队/出队时调整归一化;与《Core.Threads》背压策略一致。
XII. 质量控制与发布要点
- 归一化检查
计算 Z = ( ∫ kde(x) dx ) 或离散和;若 |Z - 1| > eps_norm,则归一再发布并记录 Z。 - 带宽稳定性
对 h* 做扰动分析:h* * {0.8, 1.0, 1.25} 的 CV/LCV 变化不应跨阈值。 - 边界与支撑
发布 support、边界方法(reflection/transform/renorm)与参数。 - 透明度字段
强制记录 K 名称、h 或 H、准则分数 CV(h) 或 LCV(h)、pilot 细节与任何正则参数。
XIII. 实现绑定与流程 Mx-93(带宽选择器)
- 输入与前置:读入 {x_i, ts_i, w_i?},校验 unit(x) 与 dim(x);若用时间权重,计算 w_i。
- 支撑识别:检测正支撑/区间支撑;选择边界策略并锁定。
- 核与尺度:选择 K;计算 sigma_robust;生成对数网格 h_grid。
- 评分器:选择 CV 或 LCV;实现 kde_{-i,h}(x_i) 的高效计算(KD-tree/FFT/分块)。
- 搜索与精化:在 h_grid 求极值,局部细化;若插件法可得 h_AMISE,将其并入候选。
- 归一与验证:计算 Z 与边界后归一;对 h* 做扰动敏感性检查。
- 发布与绑定:产出 PdfRef(kde_build),可选持久化 kde_eval 网格;写入 manifest 与诊断。
- 审计指标:{h*, score*, Z, eps_norm, runtime, method, pilot, support, K}。
XIV. 接口契约(I90 对齐)
- kde_build(data:any, kernel:str="gaussian", h:float|None=None, rule:str|None=None) -> PdfRef
- 输入:kernel ∈ {"gaussian","epanechnikov",...};h=None 时由 rule ∈ {"scott","silverman","cv","plugin"} 决定。
- 输出:包含 {"K":..., "h|H":..., "method":..., "score":..., "support":..., "pilot":...} 与评估器句柄。
- kde_eval(pdf:PdfRef, x:any, normalize:bool=True) -> array
若 normalize=false,返回原始未重标的数值以便自定义归一与边界修正。 - 其他:hist_density 作为对照基线;renormalize 用于发布前一致化。
XV. 清单字段(最小集合,供入湖)
- kde = {"K":"gaussian|ep|...", "bandwidth":{"type":"scalar|diag|full", "h":..., "H":...}, "selection":"cv|lcv|plugin|scott|silverman", "score":..., "pilot":{"method":"...", "alpha":..., "h0":...}, "support":{"type":"R|[a,b]|(a,∞)", "boundary":"reflect|transform|renorm", "params":...}, "weights":{"enabled":true|false, "rule":"time_decay|custom", "tau":...}}
- qc = {"Z":..., "eps_norm":..., "sensitivity":{"0.8h":..., "1.25h":...}, "runtime_ms":..., "notes":"..."}
- timing = {"ts":"UTC", "tau_mono":"...", "Delta_t":...}
XVI. 跨卷引用与一致性
- 若 kde 用作光谱或能量密度的平滑器,窗口能量口径需与《Core.Sea》第5章的 U_w、ENBW_Hz 一致,并在清单中双写。
- 与第9章的变量变换、归一化 z = ( x - mu_x ) / sigma_x 兼容;发布时同时给出回推公式。
- 与第10章的不确定度传播配合,使用自助法或 Delta 方法给出 kde_h(x) 的区间与带宽不确定度。
XVII. 本章要点回顾
- 已固化 S92-5、S92-6,系统化了 h 的规则法、交叉验证与插件法;覆盖边界、各向异性、多变量、自适应与去卷积情形。
- 提供了工程化流程 Mx-93 与 I90 对接,并给出可审计的清单字段与质量阈值,确保跨卷口径一致与可追溯。
版权与许可(CC BY 4.0)
版权声明:除另有说明外,《能量丝理论》(含文本、图表、插图、符号与公式)的著作权由作者(“屠广林”先生)享有。
许可方式:本作品采用 Creative Commons 署名 4.0 国际许可协议(CC BY 4.0)进行许可;在注明作者与来源的前提下,允许为商业或非商业目的进行复制、转载、节选、改编与再分发。
署名格式(建议):作者:“屠广林”;作品:《能量丝理论》;来源:energyfilament.org;许可证:CC BY 4.0。
首次发布: 2025-11-11|当前版本:v5.1
协议链接:https://creativecommons.org/licenses/by/4.0/