目录 / 文档-技术白皮书 / 09-EFT.WP.Core.Density v1.0
I. 目标与范围
- 建立 pdf/cdf/pmf 的统一口径,明确采样假设(iid/弱相关)、截断与删失处理、权重/再标度、一致的似然与信息量表达。
- 输出本章最小方程:S92-3(似然)与 S92-4(Fisher 信息);给出估计流程 Mx-92 与发布清单字段,确保与《Core.Sea》时间轴与窗口 Delta_t 对齐。
II. 基本对象与记号
- 随机变量与样本
- X : Omega → R^d,样本 x_1,...,x_N,时间标 ts_i 与单调时钟 tau_mono(见《Core.Sea》第3章)。
- 支撑集 supp(p) ⊆ R^d,测度显式:连续用 ( ∫ p(x) dx = 1 ),离散用 sum_i p_i = 1。
- 分布函数
pdf : p(x);cdf : F(x) = ( ∫_{(-∞,x]} p(u) du )(一维时);pmf : P(X=x_k) = p_k。
III. 采样模型与独立性假设
- iid 基线:{x_i} 条件于参数 theta 独立同分布,窗口宽度 Delta_t 需保证近似独立(见本卷前言“离散/连续不混淆”与 approx independence 约定)。
- 弱相关与块独立
若存在短程相关,采用分块索引 B_j,视 {x_i}_{i∈B_j} 为块内相关、块间近独立;似然以块乘积给出。 - 加权采样(校正选择偏差)
观测权重 w_i > 0,规范化 w_i' = w_i / ( (1/N) * ∑ w_i );在对数似然中按 w_i' 线性加权。
IV. 概率密度与质量函数的统一描述
- 连续:p(x) ≥ 0 且 ( ∫_{R^d} p(x) dx = 1 );期望 E[g(X)] = ( ∫ g(x) p(x) dx )。
- 离散:p_k ≥ 0 且 sum_k p_k = 1;期望 E[g(X)] = sum_k g(x_k) p_k。
- 截断与删失
- 截断域 A:使用条件密度 p_A(x) = p(x) / P(X∈A),其中 P(X∈A) = ( ∫_A p(x) dx )。
- 右删失时间 c_i:对观测 y_i = min(x_i, c_i),指标 delta_i = 1_{x_i ≤ c_i},似然项为 p(y_i) 当 delta_i=1,或生存函数 S(c_i) = 1 - F(c_i) 当 delta_i=0。
V. 似然、得分与信息量(最小方程)
- 最小方程 S92-3(似然)
- S92-3 : L(theta) = ∏_{i=1}^N p(x_i | theta);对数似然 ell(theta) = ∑_{i=1}^N log p(x_i | theta)。
- 含权重时:ell_w(theta) = ∑ w_i' * log p(x_i | theta)。
- 最小方程 S92-4(Fisher 信息)
- S92-4 : I_F(theta) = E[ ( ∂_theta log p(X|theta) ) ( ∂_theta log p(X|theta) )^T ]。
- 样本近似:I_F_hat(theta) = (1/N) * ∑ s_i s_i^T,其中 s_i = ∂_theta log p(x_i | theta)。
- 极大似然与 MAP
theta_MLE = argmax_theta ell(theta);若先验 pi(theta),则 theta_MAP = argmax_theta ( ell(theta) + log pi(theta) )。
VI. 变量变换与标准化
- 一般变换 y = g(x) 可逆时:p_Y(y) = p_X( g^{-1}(y) ) * | det( ∂x/∂y ) |(含雅可比,遵循本卷“变量变换须含雅可比”规则)。
- 标准化示例(与第9章对齐)
z = ( x - mu_x ) / sigma_x;若以 z 建模且发布 p_Z(z),需给出 p_X(x) = p_Z( (x - mu_x)/sigma_x ) * ( 1 / |sigma_x| )。
VII. 参数族与混合族
- 指数族示例
p(x|theta) = h(x) * exp( eta(theta) · T(x) - A(theta) );凸性保障 ell(theta) 良性优化。 - 混合分布
p(x | {pi_k, theta_k}) = ∑_{k=1}^K pi_k * p_k(x | theta_k),pi_k ≥ 0 且 sum pi_k = 1;估计通常采用 EM:E 步评估责任度,M 步极大化期望完整似然。
VIII. 采样与生成
- 拒绝采样
若存在易采样提议分布 q(x) 与常数 c ≥ 1 使 p(x) ≤ c q(x):接受率 1/c,记录被拒比例用于质量审计。 - 重要性采样
估计 E_p[g(X)] = ( ∫ g(x) p(x) dx ) = ( ∫ g(x) w(x) q(x) dx ),权重 w(x) = p(x)/q(x);归一化权重以降低方差。 - MCMC 提示
发布链需报告自相关时间与有效样本量 ESS,并提供收敛诊断字段(如 R_hat)。
IX. 截断/删失/缺失的一致似然
统一写法- 对样本 i,观测类型 type_i ∈ {"obs","trunc","right-cens","left-cens","interval-cens"}:
- 似然子项 L_i(theta) 分别为 p(x_i)、p_A(x_i)/P(X∈A)、S(c_i)、F(c_i)、F(b_i) - F(a_i)。
- 全似然 L(theta) = ∏ L_i(theta);掩码 m_i ∈ {0,1}(见《Core.Sea》质量闭环),m_i=0 的样本不参与乘积并在清单中标注原因。
X. 估计与发布流程 Mx-92(样本→参数→密度)
- 数据接入:校验 ts/tau_mono、窗口 Delta_t 与近独立假设;记录 unit(·) 与 dim(·)(承接 P91-2)。
- 选择模型族:参数族/混合族/半参数(KDE 见第4章);声明 supp(p)、截断/删失策略。
- 构造似然:依据 type_i、权重 w_i' 形成 ell(theta) 或 ell_w(theta);必要时加入正则或先验。
- 求解与诊断:给出 theta_hat、梯度范数、Hessian/信息矩阵 I_F_hat、条件数与优化退出状态。
- 不确定度:近似协方差 cov(theta_hat) ≈ I_F_hat^{-1};区间由 theta_hat ± z * sqrt(diag(cov)) 或 Delta 方法给出(与第10章对齐)。
- 拟合优度:KS/AD、对数评分 -ell(theta_hat)/N、AIC/BIC、后验预测检验(若使用先验)。
- 发布与入湖:序列化 pdf 参数、supp、method、diagnostics、ess/accept_rate,并在 manifest 中登记 Mx-92-pass|warn|fail。
XI. 质量控制与常见失效模式
- 归一化错误:检测 ( ∫ p(x) dx ) ≈ 1 或 sum p_k = 1;误差超阈即 fail。
- 模型错定:残差结构显著、信息矩阵病态(条件数大),触发“族扩展”建议(如从单峰到混合)。
- 选择偏差:w_i' 方差过大导致有效样本量低;报告 ESS = ( ∑ w_i' )^2 / ∑ (w_i')^2。
- 时间错位:若密度依赖到达时 T_arr,需记录两口径与 delta_form(见《Core.Sea》第8章)。
XII. 与实现绑定(I90)
- pdf_fit(data:any, family:str, init:dict|None=None) -> PdfRef:承载 S92-3、S92-4、诊断矩阵与发布清单。
- change_of_variables(pdf:PdfRef, mapping:any, jacobian:any) -> PdfRef:强制携带雅可比。
- kde_build(...) 与 kde_eval(...):见第4章;与本章 Mx-92 对接为非参数分支。
- bind_to_parameters(ds:any, params:list[str]) -> bool:将 theta_hat、cov(theta_hat) 与数据资产绑定。
XIII. 清单字段(最小集合)
- sampling = {"model":"iid|block|mcmc", "Delta_t":..., "approx_indep":true|false}
- likelihood = {"family":"...", "weighted":true|false, "trunc":"A|none", "censor":"right|left|interval|none"}
- fit = {"theta_hat":..., "I_F_hat":..., "cov_hat":..., "status":"converged|...", "crit":{"AIC":...,"BIC":...,"logscore":...}}
- diag = {"ESS":..., "accept_rate":..., "cond(H)":..., "KS_p":..., "AD_p":...}
- timing = {"ts":"UTC", "tau_mono":"...", "T_arr":{"gamma":"...","d ell":"...","c_ref":...,"n_eff":"...","delta_form":...}}
XIV. 本章要点回顾
- 已固化 S92-3、S92-4 与流程 Mx-92;给出截断/删失/缺失的一致似然、权重与变换规则。
- 交叉引用:第4章给出 kde_h(x) 与 MISE(h);第9章提供跨域归一化与变换的发布口径;第10章提供 CRLB 与区间构造的严格表述。
版权与许可(CC BY 4.0)
版权声明:除另有说明外,《能量丝理论》(含文本、图表、插图、符号与公式)的著作权由作者(“屠广林”先生)享有。
许可方式:本作品采用 Creative Commons 署名 4.0 国际许可协议(CC BY 4.0)进行许可;在注明作者与来源的前提下,允许为商业或非商业目的进行复制、转载、节选、改编与再分发。
署名格式(建议):作者:“屠广林”;作品:《能量丝理论》;来源:energyfilament.org;许可证:CC BY 4.0。
首次发布: 2025-11-11|当前版本:v5.1
协议链接:https://creativecommons.org/licenses/by/4.0/