09-EFT.WP.Core.Density v1.0 | 第3章概率密度与采样

目录／文档-技术白皮书（V5.05）／ 09-EFT.WP.Core.Density v1.0

第3章概率密度与采样

I. 目标与范围

建立 pdf/cdf/pmf 的统一口径，明确采样假设（iid/弱相关）、截断与删失处理、权重/再标度、一致的似然与信息量表达。
输出本章最小方程：S92-3（似然）与 S92-4（Fisher 信息）；给出估计流程 Mx-92 与发布清单字段，确保与《Core.Sea》时间轴与窗口 Delta_t 对齐。

II. 基本对象与记号

随机变量与样本
- X : Omega → R^d，样本 x_1,...,x_N，时间标 ts_i 与单调时钟 tau_mono（见《Core.Sea》第3章）。
- 支撑集 supp(p) ⊆ R^d，测度显式：连续用 ( ∫ p(x) dx = 1 )，离散用 sum_i p_i = 1。
分布函数
pdf : p(x)；cdf : F(x) = ( ∫_{(-∞,x]} p(u) du )（一维时）；pmf : P(X=x_k) = p_k。

III. 采样模型与独立性假设

iid 基线：{x_i} 条件于参数 theta 独立同分布，窗口宽度 Delta_t 需保证近似独立（见本卷前言“离散/连续不混淆”与 approx independence 约定）。
弱相关与块独立
若存在短程相关，采用分块索引 B_j，视 {x_i}_{i∈B_j} 为块内相关、块间近独立；似然以块乘积给出。
加权采样（校正选择偏差）
观测权重 w_i > 0，规范化 w_i' = w_i / ( (1/N) * ∑ w_i )；在对数似然中按 w_i' 线性加权。

IV. 概率密度与质量函数的统一描述

连续：p(x) ≥ 0 且 ( ∫_{R^d} p(x) dx = 1 )；期望 E[g(X)] = ( ∫ g(x) p(x) dx )。
离散：p_k ≥ 0 且 sum_k p_k = 1；期望 E[g(X)] = sum_k g(x_k) p_k。
截断与删失
- 截断域 A：使用条件密度 p_A(x) = p(x) / P(X∈A)，其中 P(X∈A) = ( ∫_A p(x) dx )。
- 右删失时间 c_i：对观测 y_i = min(x_i, c_i)，指标 delta_i = 1_{x_i ≤ c_i}，似然项为 p(y_i) 当 delta_i=1，或生存函数 S(c_i) = 1 - F(c_i) 当 delta_i=0。

V. 似然、得分与信息量（最小方程）

最小方程 S92-3（似然）
- S92-3 : L(theta) = ∏_{i=1}^N p(x_i | theta)；对数似然 ell(theta) = ∑_{i=1}^N log p(x_i | theta)。
- 含权重时：ell_w(theta) = ∑ w_i' * log p(x_i | theta)。
最小方程 S92-4（Fisher 信息）
- S92-4 : I_F(theta) = E[ ( ∂_theta log p(X|theta) ) ( ∂_theta log p(X|theta) )^T ]。
- 样本近似：I_F_hat(theta) = (1/N) * ∑ s_i s_i^T，其中 s_i = ∂_theta log p(x_i | theta)。
极大似然与 MAP
theta_MLE = argmax_theta ell(theta)；若先验 pi(theta)，则 theta_MAP = argmax_theta ( ell(theta) + log pi(theta) )。

VI. 变量变换与标准化

一般变换 y = g(x) 可逆时：p_Y(y) = p_X( g^{-1}(y) ) * | det( ∂x/∂y ) |（含雅可比，遵循本卷“变量变换须含雅可比”规则）。
标准化示例（与第9章对齐）
z = ( x - mu_x ) / sigma_x；若以 z 建模且发布 p_Z(z)，需给出 p_X(x) = p_Z( (x - mu_x)/sigma_x ) * ( 1 / |sigma_x| )。

VII. 参数族与混合族

指数族示例
p(x|theta) = h(x) * exp( eta(theta) · T(x) - A(theta) )；凸性保障 ell(theta) 良性优化。
混合分布
p(x | {pi_k, theta_k}) = ∑_{k=1}^K pi_k * p_k(x | theta_k)，pi_k ≥ 0 且 sum pi_k = 1；估计通常采用 EM：E 步评估责任度，M 步极大化期望完整似然。

VIII. 采样与生成

拒绝采样
若存在易采样提议分布 q(x) 与常数 c ≥ 1 使 p(x) ≤ c q(x)：接受率 1/c，记录被拒比例用于质量审计。
重要性采样
估计 E_p[g(X)] = ( ∫ g(x) p(x) dx ) = ( ∫ g(x) w(x) q(x) dx )，权重 w(x) = p(x)/q(x)；归一化权重以降低方差。
MCMC 提示
发布链需报告自相关时间与有效样本量 ESS，并提供收敛诊断字段（如 R_hat）。

IX. 截断/删失/缺失的一致似然

统一写法

对样本 i，观测类型 type_i ∈ {"obs","trunc","right-cens","left-cens","interval-cens"}：
似然子项 L_i(theta) 分别为 p(x_i)、p_A(x_i)/P(X∈A)、S(c_i)、F(c_i)、F(b_i) - F(a_i)。
全似然 L(theta) = ∏ L_i(theta)；掩码 m_i ∈ {0,1}（见《Core.Sea》质量闭环），m_i=0 的样本不参与乘积并在清单中标注原因。

X. 估计与发布流程 Mx-92（样本→参数→密度）

数据接入：校验 ts/tau_mono、窗口 Delta_t 与近独立假设；记录 unit(·) 与 dim(·)（承接 P91-2）。
选择模型族：参数族/混合族/半参数（KDE 见第4章）；声明 supp(p)、截断/删失策略。
构造似然：依据 type_i、权重 w_i' 形成 ell(theta) 或 ell_w(theta)；必要时加入正则或先验。
求解与诊断：给出 theta_hat、梯度范数、Hessian/信息矩阵 I_F_hat、条件数与优化退出状态。
不确定度：近似协方差 cov(theta_hat) ≈ I_F_hat^{-1}；区间由 theta_hat ± z * sqrt(diag(cov)) 或 Delta 方法给出（与第10章对齐）。
拟合优度：KS/AD、对数评分 -ell(theta_hat)/N、AIC/BIC、后验预测检验（若使用先验）。
发布与入湖：序列化 pdf 参数、supp、method、diagnostics、ess/accept_rate，并在 manifest 中登记 Mx-92-pass|warn|fail。

XI. 质量控制与常见失效模式

归一化错误：检测 ( ∫ p(x) dx ) ≈ 1 或 sum p_k = 1；误差超阈即 fail。
模型错定：残差结构显著、信息矩阵病态（条件数大），触发“族扩展”建议（如从单峰到混合）。
选择偏差：w_i' 方差过大导致有效样本量低；报告 ESS = ( ∑ w_i' )^2 / ∑ (w_i')^2。
时间错位：若密度依赖到达时 T_arr，需记录两口径与 delta_form（见《Core.Sea》第8章）。

XII. 与实现绑定（I90）

pdf_fit(data:any, family:str, init:dict|None=None) -> PdfRef：承载 S92-3、S92-4、诊断矩阵与发布清单。
change_of_variables(pdf:PdfRef, mapping:any, jacobian:any) -> PdfRef：强制携带雅可比。
kde_build(...) 与 kde_eval(...)：见第4章；与本章 Mx-92 对接为非参数分支。
bind_to_parameters(ds:any, params:list[str]) -> bool：将 theta_hat、cov(theta_hat) 与数据资产绑定。

XIII. 清单字段（最小集合）

sampling = {"model":"iid|block|mcmc", "Delta_t":..., "approx_indep":true|false}
likelihood = {"family":"...", "weighted":true|false, "trunc":"A|none", "censor":"right|left|interval|none"}
fit = {"theta_hat":..., "I_F_hat":..., "cov_hat":..., "status":"converged|...", "crit":{"AIC":...,"BIC":...,"logscore":...}}
diag = {"ESS":..., "accept_rate":..., "cond(H)":..., "KS_p":..., "AD_p":...}
timing = {"ts":"UTC", "tau_mono":"...", "T_arr":{"gamma":"...","d ell":"...","c_ref":...,"n_eff":"...","delta_form":...}}

XIV. 本章要点回顾

已固化 S92-3、S92-4 与流程 Mx-92；给出截断/删失/缺失的一致似然、权重与变换规则。
交叉引用：第4章给出 kde_h(x) 与 MISE(h)；第9章提供跨域归一化与变换的发布口径；第10章提供 CRLB 与区间构造的严格表述。

版权与许可：除另有说明外，《能量丝理论》（含文本、图表、插图、符号与公式）的著作权由作者（屠广林）享有。
许可方式（CC BY 4.0）：在注明作者与来源的前提下，允许复制、转载、节选、改编与再分发。
署名格式（建议）：作者：屠广林｜作品：《能量丝理论》｜来源：energyfilament.org｜许可证：CC BY 4.0
验证召集： 作者独立自费、无雇主无资助；下一阶段将优先在最愿意公开讨论、公开复现、公开挑错的环境中推进落地，不限国家。欢迎各国媒体与同行抓住窗口组织验证，并与我们联系。
版本信息： 首次发布：2025-11-11 ｜当前版本：v6.0+5.05