09-EFT.WP.Core.Density v1.0 | 第4章核密度估计与平滑

目录／文档-技术白皮书（V5.05）／ 09-EFT.WP.Core.Density v1.0

第4章核密度估计与平滑

I. 目标与范围

给出核密度估计 kde_h(x) 的统一定义、误差分解与带宽 h 选择准则，形成可审计的发布流程 Mx-93。
兼顾单变量与多变量、固定带宽与自适应带宽、边界修正与去卷积情形；与本卷 S92-* 编号、与《Core.Sea》窗口口径 U_w、ENBW_Hz 保持一致。
产出物：最小方程 S92-5、S92-6，实现绑定 I90 2，清单字段与质量阈值。

II. 核族与基本性质

核定义与约束
- K(u) ≥ 0，( ∫ K(u) du = 1 )；二阶核满足 mu_1(K) = ( ∫ u K(u) du ) = 0、0 < mu_2(K) = ( ∫ u^2 K(u) du ) < ∞。
- 记 R(K) = ( ∫ K(u)^2 du )，为方差项常数；mu_r(K) 为 r 阶原始矩。
常用核示例（记号）
- 高斯核：K_gauss(u) = ( 1 / sqrt(2*pi) ) * exp( - u^2 / 2 )（无界支撑）。
- Epanechnikov：K_ep(u) = 0.75 * ( 1 - u^2 )_+（紧支撑，(·)_+ 为非负截断）。
- Triweight/Biweight/Uniform/Triangular 等按需选取；二阶情形下 Epanechnikov 在 MISE 意义下最优。
与窗函数对齐
若将 K 用作平滑窗，其能量口径需报告 U_w = ( 1 / N ) * ∑ w[n]^2 与 ENBW_Hz = fs * ( ∑ w[n]^2 ) / ( ∑ w[n] )^2（见本卷与《Core.Sea》第5章）。

III. 单变量 KDE：定义、偏差与方差

最小方程 S92-5（核密度估计）
- S92-5 : kde_h(x) = ( 1 / ( N * h ) ) * ∑_{i=1}^N K( ( x - x_i ) / h )。
- 加权版：kde_h^w(x) = ( 1 / ( h * ∑ w_i ) ) * ∑ w_i * K( ( x - x_i ) / h )，w_i > 0。
一阶偏差与方差（大样本近似）
- bias( kde_h(x) ) ≈ ( h^2 / 2 ) * mu_2(K) * p''(x)。
- var( kde_h(x) ) ≈ ( 1 / ( N * h ) ) * R(K) * p(x)。
- 权衡：h ↑ 降低方差、提高偏差；h ↓ 相反。

IV. MISE 与 AMISE（最小方程）

ISE(h) = ( ∫ ( kde_h(x) - p(x) )^2 dx )；MISE(h) = E[ ISE(h) ]。
最小方程 S92-6（AMISE 近似）
- S92-6 : AMISE(h) ≈ ( R(K) / ( N * h ) ) + ( ( h^4 / 4 ) * mu_2(K)^2 * R( p'' ) )，其中 R( p'' ) = ( ∫ ( p''(x) )^2 dx )。
- 理想带宽：h_AMISE = ( R(K) / ( mu_2(K)^2 * R( p'' ) * N ) )^(1/5)（需用 pilot 估计 R( p'' )）。

V. 带宽选择：规则、交叉验证与插件法

规则法（一维）
- Scott：h_scott = sigma_x * N^(-1/5)。
- Silverman：h_silver = 0.9 * min( sigma_x , IQR / 1.34 ) * N^(-1/5)。
- 鲁棒尺度：sigma_robust = min( sigma_x , MAD / 0.6745 )，可替换 sigma_x。
最小二乘交叉验证（LSCV）
- CV(h) = ( ∫ ( kde_h(x) )^2 dx ) - ( 2 / N ) * ∑_{i=1}^N kde_{-i,h}( x_i )。
- kde_{-i,h}( x_i ) = ( 1 / ( (N-1) * h ) ) * ∑_{j ≠ i} K( ( x_i - x_j ) / h )。
- 取 h* = argmin_h CV(h)，并记录 CV(h*)。
似然交叉验证（LCV）
LCV(h) = ( 1 / N ) * ∑_{i=1}^N log( kde_{-i,h}( x_i ) )，取 h* = argmax_h LCV(h)。
插件法（Plug-in）
用 pilot 核估计 p'' 或用正态近似替换 R( p'' )，回代 h_AMISE。
网格与线搜索
在对数尺度上搜索 h：h = h0 * exp( k * Delta )；对多峰 CV(h) 使用平滑或黄金分割辅助。

VI. 边界与支撑修正

反射法（区间 [a,b]）
- 使用镜像样本 x_i^L = 2a - x_i、x_i^R = 2b - x_i：
- kde_h^ref(x) = ( 1 / ( N * h ) ) * ∑ [ K( ( x - x_i ) / h ) + K( ( x - x_i^L ) / h ) + K( ( x - x_i^R ) / h ) ]。
变换-回推法（正支撑）
- y = log( x - a )，在 y 域做 kde_h(y)；回推
- p_X(x) = p_Y( log( x - a ) ) * ( 1 / ( x - a ) )。
约束归一化
若仅在 [a,b] 发布：令 Z = ( ∫_a^b kde_h(x) dx )，发布 kde_h(x)/Z 并记录 Z 偏差。

VII. 多变量 KDE 与带宽矩阵

定义
- kde_H(x) = ( 1 / ( N * |H|^(1/2) ) ) * ∑ K_d( H^(-1/2) * ( x - x_i ) )。
- K_d(u) = ∏_{j=1}^d K(u_j)（乘积核）或使用球对称核。
带宽结构
- 标量：H = h^2 * I_d；对角：H = diag( h_1^2 , ... , h_d^2 )；全矩阵：H = A A^T。
- Scott 规则（d 维）：H = c * Sigma * N^(-2/(d+4))，其中 Sigma 为样本协方差，c 为核常数。
球化与回变换
令 z = Sigma^(-1/2) * ( x - mu_x ) 在球化空间选 H_z = h^2 * I_d，再回到原空间 H = Sigma^(1/2) * H_z * Sigma^(1/2)。

VIII. 可变带宽（自适应 KDE）

两类定义
- Balloon：kde(x) = ( 1 / ( N * h(x) ) ) * ∑ K( ( x - x_i ) / h(x) )。
- Sample-point：kde(x) = ( 1 / N ) * ∑ ( 1 / h_i ) * K( ( x - x_i ) / h_i )。
典型设定
先以 pilot h0 得 kde_0(x)，设 h_i = h0 * ( kde_0( x_i ) )^( -alpha )，alpha ∈ [0 , 1/2]，常用 alpha = 1/2。
优缺点
低密区放宽带宽、降方差；高密区收紧带宽、降偏差；需记录 pilot 口径与 alpha。

IX. 去卷积 KDE（含测量噪声）

观测模型
Y = X + E，噪声密度 phi_e 已知，目标为 p_X。
频域构造
- 令 Phi_K(t) = Fourier{ K }(t)，Phi_e(t) = Fourier{ phi_e }(t)：
- 构造去卷积核的频谱 Phi_L(t) = Phi_K(t) / Phi_e( t / h )，再 L = Fourier^{-1}{ Phi_L }。
- 估计量：kde_h^deconv(x) = ( 1 / ( N * h ) ) * ∑ L( ( x - y_i ) / h )。
正则与稳定性
对 |Phi_e(·)| 小的频段施加截断或 Tikhonov：Phi_L(t) = Phi_K(t) * conj( Phi_e( t / h ) ) / ( |Phi_e( t / h )|^2 + lambda )，记录 lambda。

X. 衍生量与集合估计

密度导数
∂^m kde_h / ∂x^m = ( 1 / ( N * h^(m+1) ) ) * ∑ K^(m)( ( x - x_i ) / h )。
等密度集与最高密度区
C_tau = { x : kde_h(x) ≥ tau }；选择 tau 使 ( ∫_{C_tau} kde_h(x) dx ) = q，q ∈ (0,1)。
置信带（启发式）
基于自助法在网格上给出 kde_h(x) 的百分位带，报告重采样次数与随机种子。

XI. 流式与时间加权

指数衰减权重
w_i = exp( - ( ts_now - ts_i ) / tau )，tau 为时间常数；用 kde_h^w(x) 在线更新（见上式）。
窗口滚动
维护双端队列 q_len 与累计权重 ∑ w_i，入队/出队时调整归一化；与《Core.Threads》背压策略一致。

XII. 质量控制与发布要点

归一化检查
计算 Z = ( ∫ kde(x) dx ) 或离散和；若 |Z - 1| > eps_norm，则归一再发布并记录 Z。
带宽稳定性
对 h* 做扰动分析：h* * {0.8, 1.0, 1.25} 的 CV/LCV 变化不应跨阈值。
边界与支撑
发布 support、边界方法（reflection/transform/renorm）与参数。
透明度字段
强制记录 K 名称、h 或 H、准则分数 CV(h) 或 LCV(h)、pilot 细节与任何正则参数。

XIII. 实现绑定与流程 Mx-93（带宽选择器）

输入与前置：读入 {x_i, ts_i, w_i?}，校验 unit(x) 与 dim(x)；若用时间权重，计算 w_i。
支撑识别：检测正支撑/区间支撑；选择边界策略并锁定。
核与尺度：选择 K；计算 sigma_robust；生成对数网格 h_grid。
评分器：选择 CV 或 LCV；实现 kde_{-i,h}(x_i) 的高效计算（KD-tree/FFT/分块）。
搜索与精化：在 h_grid 求极值，局部细化；若插件法可得 h_AMISE，将其并入候选。
归一与验证：计算 Z 与边界后归一；对 h* 做扰动敏感性检查。
发布与绑定：产出 PdfRef（kde_build），可选持久化 kde_eval 网格；写入 manifest 与诊断。
审计指标：{h*, score*, Z, eps_norm, runtime, method, pilot, support, K}。

XIV. 接口契约（I90 对齐）

kde_build(data:any, kernel:str="gaussian", h:float|None=None, rule:str|None=None) -> PdfRef
- 输入：kernel ∈ {"gaussian","epanechnikov",...}；h=None 时由 rule ∈ {"scott","silverman","cv","plugin"} 决定。
- 输出：包含 {"K":..., "h|H":..., "method":..., "score":..., "support":..., "pilot":...} 与评估器句柄。
kde_eval(pdf:PdfRef, x:any, normalize:bool=True) -> array
若 normalize=false，返回原始未重标的数值以便自定义归一与边界修正。
其他：hist_density 作为对照基线；renormalize 用于发布前一致化。

XV. 清单字段（最小集合，供入湖）

kde = {"K":"gaussian|ep|...", "bandwidth":{"type":"scalar|diag|full", "h":..., "H":...}, "selection":"cv|lcv|plugin|scott|silverman", "score":..., "pilot":{"method":"...", "alpha":..., "h0":...}, "support":{"type":"R|[a,b]|(a,∞)", "boundary":"reflect|transform|renorm", "params":...}, "weights":{"enabled":true|false, "rule":"time_decay|custom", "tau":...}}
qc = {"Z":..., "eps_norm":..., "sensitivity":{"0.8h":..., "1.25h":...}, "runtime_ms":..., "notes":"..."}
timing = {"ts":"UTC", "tau_mono":"...", "Delta_t":...}

XVI. 跨卷引用与一致性

若 kde 用作光谱或能量密度的平滑器，窗口能量口径需与《Core.Sea》第5章的 U_w、ENBW_Hz 一致，并在清单中双写。
与第9章的变量变换、归一化 z = ( x - mu_x ) / sigma_x 兼容；发布时同时给出回推公式。
与第10章的不确定度传播配合，使用自助法或 Delta 方法给出 kde_h(x) 的区间与带宽不确定度。

XVII. 本章要点回顾

已固化 S92-5、S92-6，系统化了 h 的规则法、交叉验证与插件法；覆盖边界、各向异性、多变量、自适应与去卷积情形。
提供了工程化流程 Mx-93 与 I90 对接，并给出可审计的清单字段与质量阈值，确保跨卷口径一致与可追溯。

版权与许可：除另有说明外，《能量丝理论》（含文本、图表、插图、符号与公式）的著作权由作者（屠广林）享有。
许可方式（CC BY 4.0）：在注明作者与来源的前提下，允许复制、转载、节选、改编与再分发。
署名格式（建议）：作者：屠广林｜作品：《能量丝理论》｜来源：energyfilament.org｜许可证：CC BY 4.0
验证召集： 作者独立自费、无雇主无资助；下一阶段将优先在最愿意公开讨论、公开复现、公开挑错的环境中推进落地，不限国家。欢迎各国媒体与同行抓住窗口组织验证，并与我们联系。
版本信息： 首次发布：2025-11-11 ｜当前版本：v6.0+5.05