目录 / 文档-技术白皮书 / 03-EFT.WP.Core.Parameters v1.0
I. 章节目标与范围
- 建立 prior(theta)、L(data | theta)、post(theta | data) 与证据 Z 的统一书写与实现口径。
- 给出常用似然模板、先验族与超参数规范,并说明与变换 T_map 的耦合及雅可比修正。
- 输出锚点:最小方程 S41-1…S41-3;实现接口用例 I30 3、I30 5;流程 Mx-2(校准流水线)。
II. 符号与对象
- 参数与数据:theta ∈ Theta,data = { y_k, x_k }_{k=1..N};可分组数据 data = ⋃_g data_g。
- 先验/似然/后验:prior(theta),L(data | theta),post(theta | data),Z。
- 变换与雅可比:phi = T_map(theta),J_T = ∂theta/∂phi。
- 噪声与尺度:sigma(x)(异方差尺度),tau(精度),Corr(相关矩阵),Cov(协方差)。
- 窗口与体域(与统计卷一致):avg_t[·; Δt],avg_V[·; V]。
- 路径到达时引用(跨卷):gamma(ell),d ell,T_arr = ( ∫ ( n_eff / c_ref ) d ell )。
III. Bayes 母式与证据(最小方程 S41-1)
- S41-1(Bayes 母式)
- post(theta | data) = L(data | theta) * prior(theta) / Z
- Z = ∫_Theta L(data | theta) * prior(theta) d theta
- log post(theta | data) = log L(data | theta) + log prior(theta) - log Z
- 极值点定义:
- theta_MLE = argmax_theta L(data | theta)
- theta_MAP = argmax_theta post(theta | data)
- 量纲闭合要求:
prior(theta) 与 L(data | theta) 为密度或概率质量;Z 为归一化常数;检查使用 check_dim(expr:str)。
IV. 似然构造模板
- 条件独立分解(显式声明):
- L(data | theta) = ∏_{k=1}^N L_k(y_k | x_k, theta)
- 若分组:L(data | theta) = ∏_g ∏_{k ∈ g} L_{g,k}(y_k | x_k, theta)
- 加性高斯噪声:
- 观测模型 y_k = f(x_k; theta) + ε_k,ε_k ~ Normal(0, sigma_k^2)
- L_k = Normal(y_k | f(x_k; theta), sigma_k)
- 异方差高斯:
sigma_k = sigma(x_k);其似然同上,仅 sigma_k 随 x_k 变。 - 乘性 LogNormal 噪声:
- y_k = f(x_k; theta) * η_k,log η_k ~ Normal(0, s^2)
- L_k = LogNormal(y_k | log f(x_k; theta), s)
- 计数型:
L_k = Poisson(y_k | λ_k(theta)) 或 Binomial(y_k | n_k, p_k(theta)) - 路径-到达时测量(跨卷对齐):
- 预测量 f(x_k; theta) def= T_arr(theta) = ( ∫ ( n_eff / c_ref ) d ell ),须显式给出 gamma(ell) 与 d ell
- 观测模型 y_k = T_arr(theta) + ε_k,常用 ε_k ~ Normal(0, sigma^2)
- 组合/混合:
分量混合 L_k = Σ_j w_j * L_{k,j},w_j ≥ 0,Σ_j w_j = 1;w 的先验见 Dirichlet。
V. 先验族与超参数(规范口径)
- 实数无界:
- Normal(mu, sigma);超参数 {mu, sigma>0}
- Laplace(mu, b)(L1 正则等价);b>0
- 正域((0, +inf)):
LogNormal(mu, sigma);Gamma(shape, rate);HalfNormal(sigma) - 有界区间((lb, ub)):
Beta(a, b) 对 s ∈ (0,1);区间映射 theta = lb + (ub - lb) * s - 协方差/相关结构:
InvWishart(ν, S) 或分解型先验 Sigma = D * R * D,R ~ LKJ(η),D 对角元素 HalfNormal - 比例与混合权:
Dirichlet(alpha_vec);alpha_vec > 0 - 先验写作公设:
每个先验族必须给出全部超参数与支持域;例如 prior(c_ref) = LogNormal(mu_c, sigma_c),并注明单位。
VI. 变换域中的后验(最小方程 S41-2)
- 设 phi = T_map(theta) 可逆,J_T = ∂theta/∂phi,则
log post(phi | data) = log L(data | theta(phi)) + log prior_theta(theta(phi)) + log | det(J_T(phi)) | - log ZS41-2(变换域 log 后验) - 常用特例:
- log 变换(正域):theta = lb + exp(phi),log | det(J_T) | = Σ_i phi_i
- logit 变换(区间):theta = lb + (ub - lb) * σ(phi),log | det(J_T) | = Σ_i [ log(ub_i - lb_i) + log σ(phi_i) + log(1 - σ(phi_i)) ]
VII. 正则化等价与选择指南
- 岭型(L2):prior(theta_i) = Normal(0, σ^2) 等价于目标函数加项 (1/(2σ^2)) * theta_i^2
- 套索(L1):prior(theta_i) = Laplace(0, b) 等价于加项 (1/b) * |theta_i|
- 稀疏尺度:Horseshoe(λ, τ) 适合强稀疏先验;实现用局部-全局层次分解。
VIII. 层次化与共享参数
- 组层先验(部分汇聚):
- theta_g | mu, tau ~ Normal(mu, tau^{-1})
- mu ~ Normal(mu0, s0),tau ~ Gamma(a0, b0)
- 共享/系数耦合:
若 theta_a = r * theta_b,可对 r 设 LogNormal 或 Normal 先验并纳入推断。
IX. 模型比较与信息准则(最小方程 S41-3)
- S41-3(信息准则简表)
- AIC = 2k - 2 log L(data | theta_MLE)
- BIC = k * log N - 2 log L(data | theta_MLE)
- DIC approx= 2 * avg_theta[ -log L(data | theta) ] - ( -2 log L(data | theta_hat) )
- 证据与贝叶斯因子:
Z = ∫ L * prior d theta,两模型 M1,M2 的比值 BF_{12} = Z_1 / Z_2(数值上可用桥采样/热力学积分估计)。
X. 实现绑定与最小工作示例(I30 3 / I30 5)
- 先验登记(I30 3):
- set_prior(code="c_ref", family="LogNormal", hyper={"mu":mu_c, "sigma":sigma_c})
- set_prior(code="n_eff.alpha", family="Gamma", hyper={"shape":a, "rate":b})
- 推断与采样(I30 5):
- theta_mle = infer_mle(model=S20_arrival, data=D, params=["c_ref","n_eff.alpha"])
- theta_map = infer_map(model=S20_arrival, data=D, params=[...])
- samples = posterior_sample_mcmc(model=S20_arrival, data=D, params=[...], n=2000, burn=500, method="NUTS")
- 证据近似与比较:
在采样后调用信息准则或桥采样模块;报告 AIC/BIC 与 BF。
XI. 校准流水线(Mx-2)
- 选择似然模板并声明独立性或相关结构;若相关,给出 Cov 或 Corr 的先验。
- 为每个参数设定 prior(theta_i) 与边界/变换 T_map,并通过 validate_param_set。
- 进行先验预测检验:从 prior 采样生成伪数据并对比观测尺度。
- 运行 infer_mle 作为初值,再执行 infer_map 或 posterior_sample_mcmc。
- 进行后验预测检验与残差诊断;必要时调整先验或似然。
- 计算信息准则与(可选)证据比,对方案进行模型选择或加权。
XII. 到达时相关专栏(跨卷一致)
- 若参数影响 T_arr,所有公式必须保持括号完整并显式路径:
T_arr = ( 1 / c_ref ) * ( ∫ n_eff d ell ) 或 T_arr = ( ∫ ( n_eff / c_ref ) d ell ) - 与实现绑定:
- propagate_time(n_eff_path, ds, c_ref) -> float
- 由后验样本传播到 T_arr 的不确定性:avg_gamma 可作为路径平均的统计窗口。
XIII. 误用与冲突清单
- 禁止写作 ∫ n d ell / c,一律使用 ( ∫ ( n_eff / c_ref ) d ell ) 或 ( 1 / c_ref ) * ( ∫ n_eff d ell )。
- 先验族不得省略超参数;prior(theta_i) = Normal(mu_i, sigma_i) 而非仅 Normal。
- 变换域推断必须包含 log | det(∂theta/∂phi) |;避免把 phi 与 theta 的密度混用。
- 严禁 T_fil 与 T_trans 混用;严禁 n 与 n_eff 互换。
- 信息准则的 k 应为有效参数数(考虑变换与约束后);样本量 N 为点位总数或经窗口聚合后的有效计数,须在文中声明。
XIV. 输出锚点与引用
- 最小方程:S41-1(Bayes 母式)、S41-2(变换域 log 后验)、S41-3(信息准则)。
- 实现接口:I30 3(先验登记)、I30 5(推断与采样)。
- 流程:Mx-2(校准流水线)。
- 跨卷引用:与《EFT.WP.Core.Equations》之 S20-*(到达时)与 S40-*(张度场)保持一致。
版权与许可(CC BY 4.0)
版权声明:除另有说明外,《能量丝理论》(含文本、图表、插图、符号与公式)的著作权由作者(“屠广林”先生)享有。
许可方式:本作品采用 Creative Commons 署名 4.0 国际许可协议(CC BY 4.0)进行许可;在注明作者与来源的前提下,允许为商业或非商业目的进行复制、转载、节选、改编与再分发。
署名格式(建议):作者:“屠广林”;作品:《能量丝理论》;来源:energyfilament.org;许可证:CC BY 4.0。
首次发布: 2025-11-11|当前版本:v5.1
协议链接:https://creativecommons.org/licenses/by/4.0/