目录 / 文档-技术白皮书 / 09-EFT.WP.Core.Density v1.0
I. 目标与范围
- 统一直方图与体素化在本卷的记号、归一与守恒口径,区分概率密度 p(x) 与物理密度 rho(x) 的离散化表示。
- 给出等宽与变宽 bin、加权样本、1D/2D/3D 情形的密度估计式,建立守恒校核与再取样(细化/粗化)流程 Mx-96。
- 与《Core.Sea》第2/4/5章在采样、抗混叠 H(f) 与 S_xx(f) 口径一致;变量变换含雅可比的规则与本卷第9章一致。
II. 记号与约定
- 数据与样本:样本数 N,样本 x_i,权重 w_i ≥ 0(若无则省略,默认 w_i = 1)。
- 边界与 bin:边界数组 edges = {e_0, ..., e_K},第 j 个 bin 为区间 [e_j, e_{j+1})(最后一 bin 可闭区间);宽度 Delta_j = e_{j+1} - e_j;等宽情形写作 Delta。
- 计数与体素:计数 count_j;多维体素体积 V_i;物理密度网格值 rho_i。
- 缺失掩膜:m_i ∈ {0,1};仅计入 m_i = 1 的样本与质量。
III. 一维直方图密度估计(概率口径)
- 等宽直方图的密度估计:
S92-10 : p_hat(x ∈ bin j) = count_j / ( N * Delta )。 - 变宽直方图的密度估计:
S92-18 : p_hat(x ∈ bin j) = count_j / ( N * Delta_j )。 - 加权样本(权重和为 W = ∑ w_i)的变宽估计:
S92-19 : p_hat(x ∈ bin j) = ( ∑_{i ∈ bin j} w_i ) / ( W * Delta_j )。 - 归一化检查:
∑_{j=0}^{K-1} p_hat_j * Delta_j = 1,否则视为实现错误或边界外溢未处理。 - 建议输出元数据:{K, edges, Delta_j 或 Delta, weighted:bool, W, underflow, overflow}。
IV. 多维直方图与体素化(概率口径与物理口径)
- 2D 概率密度直方图(等宽示例):
S92-20 : p_hat[j,k] = count_{j,k} / ( N * Delta_x * Delta_y )。 - 物理密度体素守恒:
S92-11 : mass_preserve = ( ∑_i rho_i * V_i ),发布时给出目标 M_ref = ( ∫ rho dV ) 或基线质量以便核对。 - 单元质量与分片常数重建:
S92-25 : M_c = ( ∫_{cell c} rho(x) dV );S92-26 : rho_tilde(x ∈ cell c) = M_c / V_c。 - 变换到曲线坐标(离散版需含雅可比):
rho_u(u) = rho_x( x(u) ) * | det( ∂x/∂u ) |;网格体积 V_i 按目标坐标系计算。
V. bin 选择规则与推荐
- Freedman–Diaconis(稳健、抗尾部):
S92-22 : Delta_FD = 2 * IQR_x / N^(1/3),IQR_x = Q3 - Q1。 - Scott(高斯最优均方误差):
S92-23 : Delta_Scott = 3.5 * sigma_x / N^(1/3)。 - Sturges(规则化 bin 数):
S92-24 : K_Sturges = ceil( log2(N) + 1 )。 - 选择建议:
样本量中等且分布未知优先 Delta_FD;近似高斯优先 Delta_Scott;小样本可参考 K_Sturges 起步并以 CV(h) 或似然准则微调。
VI. 边界处理、溢出与缺失
- 边界约定:默认 [e_j, e_{j+1}) 左闭右开;最后一 bin 可设为闭区间以容纳最大值。
- 溢出:记录 underflow = count( x < e_0 )、overflow = count( x ≥ e_K ),形成单独桶或在报告中剔除并注明。
- 缺失:m_i = 0 的样本不计入 N 与 W;报告 missing_rate = 1 - ( ∑ m_i / N_raw )。
- 去趋势与尺度:必要时对 x 做 z = ( x - mu_x ) / sigma_x(见 S92-14,第9章),但发布时应回写到原单位以避免量纲混淆。
VII. 误差、偏差与不确定度(直方图口径)
- 领先阶 binning 偏差(1D、平滑 p(x),等宽):
S92-27 : bias(x) ≈ ( Delta^2 / 24 ) * p''(x)。 - 单 bin 方差近似(伯努利计数、变宽):
S92-28 : var( p_hat_j ) ≈ p_j * ( 1 - p_j ) / ( N * Delta_j^2 ),其中 p_j = ( ∫_{bin j} p(x) dx )。 - 加权情形:以 W 代替 N 并替换 p_j 为权重归一概率质量,说明近似独立的假设(见全书“质量闭环”条款)。
VIII. 守恒与再取样(细化/粗化)
- 细化(coarse→fine):单元质量不变,将 M_c 按体积或重叠比例分配到子单元 c',保持 ∑ M_{c'} = M_c。
- 粗化(fine→coarse):将细网格 rho_i * V_i 汇总到 coarse 单元并再除以 V_c 得到 rho_coarse,保持 S92-11。
- 跨网格变换(含坐标变换):先计算重叠体积或使用保守重映射,确保 | M_target - M_source | / M_source ≤ tol(建议 tol ≤ 1e-6)。
- 质量核对:报告 mass_rel_err = | ( ∑ rho_i V_i ) - M_ref | / M_ref;若 > tol 必标注异常并回退。
IX. 工程流程 Mx-96(网格细化/粗化保持总量)
- 输入
mode ∈ {"hist-pdf","grid-phys"};edges 或目标网格;m_i 与权重 w_i;参考质量 M_ref(物理口径)。 - 预处理
剔除 m_i = 0;处理溢出样本;可选标准化与去趋势(发布时回写单位)。 - bin/网格选择
依据 Delta_FD/Delta_Scott/K_Sturges 或外部策略确定 edges;计算 Delta_j 与元数据。 - 统计与估计
概率口径:p_hat_j 按 S92-18/19;物理口径:计算 rho_i 与 M_c/M_ref。 - 守恒校核
概率口径:∑ p_hat_j * Delta_j = 1;物理口径:校核 S92-11,输出 mass_rel_err。 - 再取样(可选)
细化/粗化到目标网格,采用保守重映射,重复守恒校核。 - 报告与落盘
输出 hist.parquet|nc,字段建议:edges, centers, Delta_j, counts, p_hat, weighted, W, underflow, overflow, mass_rel_err, qc{}。 - 追溯与跨卷对齐
记录 ts、tau_mono、fmt、chan;如时间轴经 T_arr 对齐,附 delta_form(见《Core.Sea》第8章)。
X. 接口契约(对齐 I90 4)
- bin_edges(domain:any, rule:str="fd") -> array
rule ∈ {"fd","scott","sturges","fixed"};返回 edges 与 Delta_j(可变宽则数组)。 - hist_density(data:any, edges:any, normalize:bool=True) -> PdfRef
- 输入可含 weights、mask;输出建议字段:
- {"edges":..., "centers":..., "counts":..., "p_hat":..., "Delta":..., "weighted":..., "underflow":..., "overflow":..., "qc":{"sum_pDelta":..., "mass_rel_err":...}}。
XI. 跨卷与跨章一致性
- 采样与抗混叠约束见《Core.Sea》第2/4章;直方图视为一种核密度(矩形核)估计,与第4章 kde_h(x) 的带宽 h 对应 Delta。
- 变量变换与归一化参见本卷第9章 S92-14/15;不确定度传播对接第10章。
- 若对直方图频谱化,应使用第6章 S92-30..S92-38 的 PSD 规范,并同步发布 ENBW_Hz 与 U_w。
XII. 发布清单最小必填(建议)
N, K, edges, Delta_j 或 Delta, counts, p_hat, weighted, W, underflow, overflow, sum_pDelta, mode, unit(x), unit(p_hat), ts, tau_mono, fmt, q_score。XIII. 本章要点回顾
- 直方图/体素化以 S92-10/18/19/20 为密度估计核心式,以 S92-11 为质量守恒约束。
- bin 选择以 S92-22/23/24 为规则基线,发布时必须给出边界、宽度与归一性检查。
- 流程 Mx-96 保证细化/粗化均守恒、可追溯,并与接口 I90 4 无缝对接。
版权与许可(CC BY 4.0)
版权声明:除另有说明外,《能量丝理论》(含文本、图表、插图、符号与公式)的著作权由作者(“屠广林”先生)享有。
许可方式:本作品采用 Creative Commons 署名 4.0 国际许可协议(CC BY 4.0)进行许可;在注明作者与来源的前提下,允许为商业或非商业目的进行复制、转载、节选、改编与再分发。
署名格式(建议):作者:“屠广林”;作品:《能量丝理论》;来源:energyfilament.org;许可证:CC BY 4.0。
首次发布: 2025-11-11|当前版本:v5.1
协议链接:https://creativecommons.org/licenses/by/4.0/