目录 / 文档-技术白皮书 / 19-EFT.WP.Methods.SynthData v1.0
第8章 时序与事件合成(Markov/Hawkes/SDE)
I. 范围与对象
- 目标
- 给出时序与事件流的统一合成口径,覆盖 Markov、Hawkes 与 SDE 三类模型,产出路径 X(t)、事件集合 {T_i} 或二者耦合的多模态轨迹。
- 以 tau_mono 为内部时基,对外以 ts 发布;强制记录 T_arr 两口径与 delta_form,并发布 offset/skew/J。
- 将自相关、谱密度、到达过程与物理边界约束纳入契约与清单:manifest.synth.time.*、manifest.synth.events.*。
- 输入
- 参考数据或目标统计量 ref,时间范围 [0, T_h],离散步长 Delta_t 或目标事件数 N_evt。
- 模型设定:P 或 Q(Markov/CTMC),mu, phi(·)(Hawkes),a(x,t), b(x,t)(SDE),初分布 pi0 或初值 X_0。
- 规则与边界 Rules = { g_j(x,t) ≤ 0 },时基映射与发布策略,SLO 与阈值。
- 输出
合成路径 X_syn(t) 与/或事件集 {T_i},统计保真与稳定性报告,manifest.synth.time/events。
II. 名词与变量
- 时基与到达时:tau_mono, ts, T_arr, gamma(ell), delta_form, offset/skew/J。
- Markov/CTMC:X_t ∈ S,离散转移 P,生成元 Q,驻分布 pi*。
- Hawkes:强度 lambda(t) = mu + ( ∑_{T_j < t} phi(t - T_j) ),核 phi(s),分枝比 eta = ( ∫_0^∞ phi(s) ds )。
- SDE:dX_t = a(X_t,t) dt + b(X_t,t) dW_t,离散化 Delta_t,xi_n ~ N(0, I)。
- 度量:ACF(lag), PSD(f), F_ΔT(inter-event CDF),W1, KL。
III. 公设 P408-*
- P408-1(时基一体化):统计评估在 tau_mono 上计算,对外以 ts 发布,并记录 offset/skew/J。
- P408-2(到达时两口径):涉及传播或到达度量时,必须并行计算 T_arr 两口径并记录 delta_form。
- P408-3(稳定性):eta < 1(Hawkes 站稳),Q 生灭平衡或链正再生(CTMC),Delta_t 满足数值稳定与均方收敛(SDE)。
- P408-4(单位与量纲):unit/time="[T]",所有物理量通过 check_dim(expr)。
- P408-5(因果与单调):事件时间严格单调:T_{i+1} > T_i;状态更新遵循因果顺序。
- P408-6(边界与安全):硬边界以投影或反射实现,不得发布越界样本。
- P408-7(复现与追溯):seed/rng/model_spec 必入清单并签名。
- P408-8(保真可度量):必须发布 ACF/PSD/W1(F_ΔT) 等对齐指标及其不确定度。
- P408-9(多模态一致):当路径与事件耦合时,跨模态时间戳共用一套 tau_mono/ts 记录。
- P408-10(缺失与插补声明):若插补或对齐使用外部修正,需以 corr_env(x; RefCond) 记录参考条件。
IV. 最小方程 S408-*
- S408-1(离散 Markov)
- P 为行随机矩阵,X_{k+1} ~ P(X_k, ·);k 对应 t_k = k * Delta_t。
- k 步转移:P^{(k)} = P^k;若遍历,存在 pi* 使得 pi* P = pi*。
- S408-2(连续时间 Markov/CTMC)
- Q 满足 q_{ii} = - ∑_{j≠i} q_{ij},P(t) = exp( t * Q )。
- 驻分布(若存在):pi* Q = 0 且 ∑_i pi*_i = 1。
- S408-3(Hawkes 强度与分枝比)
- lambda(t) = mu + ( ∑_{T_j < t} phi(t - T_j) );指数核示例:phi(s) = alpha * beta * exp( - beta * s ) * 1_{s>0}。
- eta = ( ∫_0^∞ phi(s) ds );平稳强度期望 E[ lambda ] = mu / ( 1 - eta )(当 eta < 1)。
- S408-4(Ogata thinning 仿真)
给定上界 Lambda* ≥ lambda(t),采样候选到达间隔 U ~ Exp(Lambda*),以概率 lambda(t+U) / Lambda* 接受,递推直到 T_h。 - S408-5(SDE Euler–Maruyama)
- X_{n+1} = X_n + a(X_n,t_n) * Delta_t + b(X_n,t_n) * sqrt(Delta_t) * xi_n。
- Milstein 可选:X_{n+1} = X_n + a * Delta_t + b * sqrt(Delta_t) * xi_n + 0.5 * b * (∂b/∂x) * ( (xi_n)^2 - 1 ) * Delta_t。
- S408-6(统计保真目标)
min_theta [ w_acf * || ACF_syn - ACF_ref ||_2 + w_psd * || PSD_syn - PSD_ref ||_2 + w_w1 * W1( F_ΔT_syn, F_ΔT_ref ) ]。 - S408-7(时基映射与到达时)
- ts = a * tau_mono + b,发布 offset=a-1, skew=b/T_h 与抖动 J。
- T_arr = ( 1 / c_ref ) * ( ∫ n_eff d ell ),T_arr = ( ∫ ( n_eff / c_ref ) d ell ),delta_form = | ( 1 / c_ref ) * ( ∫ n_eff d ell ) - ( ∫ ( n_eff / c_ref ) d ell ) |。
V. 合成流程 M40-8(时序与事件闭环)
- 就绪
设定 [0, T_h]、Delta_t 或 N_evt、pi0|X_0、模型参数与 Rules;声明度量与阈值:tol_acf, tol_psd, tol_w1, tol_Tarr, J_max。 - 时基对齐
确立 tau_mono,准备 ts 映射策略与发布字段 offset/skew/J。 - 生成
- Markov/CTMC:按 P 或 Q 采样状态与滞留时间;
- Hawkes:Ogata thinning 得 {T_i};
- SDE:Euler–Maruyama(或 Milstein)积分得 X(t)。
- 规则与边界
对 g_j(x,t) 采用拒绝或投影 x ← Pi_C(x);记录 res_cons 与接受率。 - 保真评估
计算 ACF/PSD/F_ΔT 与 W1; 对 Markov/CTMC 比较驻分布与转移矩;对 Hawkes 估计 eta_hat 与强度残差。 - 到达时与发布
写入 T_arr 两口径与 delta_form,并计算 J;执行 check_dim。 - 再加权与对齐(可选)
通过 balance_distribution 进行再加权或映射,更新 n_eff 与映射签名。 - 落盘与冻结
输出 manifest.synth.time/events 与审计日志;若任一契约不通过则回退或降级发布。
VI. 契约与断言 C40-8xx
- C40-801(单调时序):non_decreasing(tau_mono) 且事件严格递增。
- C40-802(Hawkes 稳定):eta_hat ≤ eta_max < 1 且 |E[lambda]-lambda_ref| ≤ tol_rate。
- C40-803(Markov/CTMC 合法):P 行和为 1,Q 行和为 0、非对角元非负。
- C40-804(SDE 稳定):步长满足 Delta_t ≤ Delta_t_max;越界用反射或吸收并记录 res_cons ≤ tol_cons。
- C40-805(统计保真):||ACF_gap||_2 ≤ tol_acf,||PSD_gap||_2 ≤ tol_psd,W1(F_ΔT_syn,F_ΔT_ref) ≤ tol_w1。
- C40-806(到达时一致):delta_form ≤ tol_Tarr,J ≤ J_max。
- C40-807(单位量纲):check_dim(expr)=true。
- C40-808(复现性):seed/rng/model_spec 重放哈希一致。
- C40-809(发布 SLO):latency_ms_p99 ≤ SLO_time,oom_rate ≤ oom_max。
VII. 实现绑定 I40-8*(接口原型与不变量)
- simulate_markov(P_or_Q, T_h|N_evt, init, seed) -> path
- simulate_hawkes(mu, phi_spec, T_h, seed) -> {T_i}
- simulate_sde(a_fn, b_fn, X0, Delta_t, T_h, seed) -> X(t)
- enforce_time_rules(path_or_events, Rules) -> {obj', m_acc, res_cons}
- measure_time_fidelity(obj', ref, metrics) -> {ACF_gap, PSD_gap, W1_ΔT, eta_hat}
- align_timepath(obj', sync_ref) -> obj''(写入 offset/skew/J 与 T_arr 两口径)
- balance_event_distribution(ref, obj'', method) -> map|w
- emit_time_manifest(artifacts) -> manifest.synth.time/events
- 不变量:eta_hat < 1;non_decreasing(tau_mono);delta_form ≤ tol_Tarr;unit/dim 校核通过;复现哈希一致。
VIII. 交叉引用
- 见本卷第6章(物理/仿真边界与投影)、第7章(条件化与可控生成)、第12章(保真与效用评估)、第13章(发布与清单)。
- 见《Methods.Cleaning v1.0》 第5/6/10章(时间轴与到达时、路径契约、发布冻结)。
- 见《Methods.CrossStats v1.0》 第7/11/14章(漂移检测、时序评估与统计 SLO)。
- 见《Methods.Imaging v1.0》 第13章(时间/路径门控与到达时一致化)。
IX. 质量度量与风控
- 核心 SLI
rate_err = |E[lambda]-lambda_ref|,eta_hat,ACF_gap, PSD_gap, W1_ΔT,latency_ms_p99,oom_rate,delta_form,J,res_cons,n_eff。 - 常见风险与处置
- 分枝比接近 1 → 降低 alpha 或提高 mu 的比值稳定上界,或截断核尾。
- SDE 数值爆炸 → 减小 Delta_t、切换 Milstein、施加反射边界或抑制漂移项。
- ACF/PSD 偏差大 → 采用校准回路(再权重/参数拟合),或引入状态空间纠偏。
- 时间抖动与到达差超阈 → 重做 align_timepath,校正 offset/skew,审计 gamma(ell) 与 n_eff。
- 资源/延迟异常 → 启用限流与背压(见本卷第14章),降级模型阶次或分辨率。
小结
本章确立了时序与事件合成的统一基线:以 P408-* 约束稳定与可审计,以 S408-* 给出 Markov/CTMC/Hawkes/SDE 的关键方程与到达时两口径;以 M40-8 实施从就绪到发布的闭环;以 C40-8xx 契约与 I40-8* 接口保障工程落地与跨卷一致。产出物与指标落至 manifest.synth.time/events,用于后续评估与发布冻结。版权与许可(CC BY 4.0)
版权声明:除另有说明外,《能量丝理论》(含文本、图表、插图、符号与公式)的著作权由作者(“屠广林”先生)享有。
许可方式:本作品采用 Creative Commons 署名 4.0 国际许可协议(CC BY 4.0)进行许可;在注明作者与来源的前提下,允许为商业或非商业目的进行复制、转载、节选、改编与再分发。
署名格式(建议):作者:“屠广林”;作品:《能量丝理论》;来源:energyfilament.org;许可证:CC BY 4.0。
首次发布: 2025-11-11|当前版本:v5.1
协议链接:https://creativecommons.org/licenses/by/4.0/