13-EFT.WP.Methods.SimStack v1.0 | 第9章基准算例与性能标定 | 能量丝理论

第9章基准算例与性能标定

I. 范围与目标

本章定义可复现的基准族与评分体系，覆盖微核、系统级与跨尺度场景，统一输入工况、指标与报告口径。
目标：以清单化证据评价正确性、稳定性、SLO 与吞吐，并据此进行参数标定与对照实验；所有时间量以 tau_mono 记录并发布 ts，两口径 T_arr 并行报告。

II. 术语与符号

基准与工况
B.id（基准编号），cfg（配置），seed（随机种子），cap（资源上限），quota(k)（租户配额）。
评分与指标
- S_total（总评分），S_cor（正确性），S_stb（稳定性），S_slo（SLO），S_thr（吞吐）。
- TS.latency.p99，TS.throughput.rps，TS.util.*，TS.hb.violations。
守恒与两口径
- eps_mass，eps_norm，eps_psd，T_arr.general，T_arr.factorized，delta_form。
- 路径与测度：gamma(ell)，d ell。
时基与窗口
warmup（预热时长），W（统计窗口），U_w，ENBW。

III. 公设与最小方程（P61-/S62-）

P61-18（可复现与环境锁定）
任何 B.id 的发布，必须落盘 cfg、seed、容器镜像与依赖指纹，禁止隐式可变因素。
P61-19（公平比较）
比对仅在相同 cap、quota(k)、placement/policy 与 gamma(ell) 口径下成立；变更需作为单因子实验。
P61-20（守恒门优先）
若 eps_mass、eps_norm、eps_psd、delta_form 任一越门，则本次评分无效。
S62-60（评分聚合：加权几何）
S_total = ( S_cor^w1 * S_stb^w2 * S_slo^w3 * S_thr^w4 )^( 1 / ( w1 + w2 + w3 + w4 ) )，建议 w1 ≥ w2 ≥ w3 ≥ w4。
S62-61（正确性得分）
对任一 QoI：e_rms = sqrt( mean( ( Q - Q_ref )^2 ) )，
S_cor = max( 0 , 1 - e_rms / gate(Q) )。
S62-62（稳定性得分）
cv = std(Q) / max( ε , mean(Q) )（滑窗 W），S_stb = 1 / ( 1 + cv / target_cv )。
S62-63（SLO 得分）
S_slo = min( 1 , target_p99 / TS.latency.p99 ) * I( TS.hb.violations = 0 )，I 为指示函数。
S62-64（吞吐得分）
资源归一化吞吐 thr_norm = TS.throughput.rps / cost(res)，S_thr = min( 1 , thr_norm / target_thr )。
S62-65（预热与截尾）
统计采用区间 [warmup , T_end - cooldown]，并以 U_w 与 ENBW 校正谱量。

IV. 基准清单与输入工况

微核（可解析或准解析对比）
- B-μ1: 路径积分核：计算 T_arr.general 与 T_arr.factorized，输出 delta_form 与路径清单 gamma(ell)。
- B-μ2: 守恒核：体积域 V 的 M(t) = ( ∫_V rho dV ) 与通量闭合，输出 eps_mass。
- B-μ3: 谱一致性核：给定 S_xx(f) 生成时间序列，校核 eps_psd 与 U_w/ENBW 口径。
系统级（端到端线程网络）
- B-S1: 有界背压流水线：固定 G=(V,E) 与 req(v)，考察 TS.latency.p99、TS.queue.backlog。
- B-S2: 网络感知放置：切换放置策略，对比 CommCost 与 S_total。
- B-S3: 弹性伸缩：触发 autoscale，评估震荡与 TS.hb.violations。
跨尺度（连续×离散耦合）
- B-X1: I60-1 couple_fields + I60-3 advance_dt 的 CFL 自适应回路，评估稳定性与正确性。
- B-X2: 到达时校准闭环：I60-4 calibrate_arrival_time 与观测对齐，评估 delta_form 与 σ_ts 传播。
- B-X3: 多路径 gamma(ell) 合成：比较等价处理与显式枚举的差异。

V. 指标族与评分口径

正确性
微核以解析解或高精参考 Q_ref；系统级以基线版本为 Q_ref；跨尺度同时给出两口径 T_arr 与守恒证据。
稳定性
在窗口 W 上计算 cv，并发布 ts 版与 tau_mono 版；谱量按 U_w、ENBW 校正。
SLO
至少包含 TS.latency.p99、TS.sli.success_rate、TS.hb.violations。
吞吐
报告 TS.throughput.rps 与归一化 thr_norm，同时给出资源账单 cost(res)。

VI. 标定流程与对照实验（Mx-64 benchmark-report）

入口条件
通过 Mx-61（时间校准）与 Mx-62（守恒校核）；锁定 cfg/seed/cap/quota 与放置策略。
流程
- 预热与截尾：运行至 warmup，稳定后采集窗口 W；
- 微核正确性标定：计算 S_cor 与 eps_*；
- 系统级 SLO 标定：测量 TS.latency.p99、TS.queue.backlog，计算 S_slo；
- 吞吐与成本：采集 TS.throughput.rps、TS.util.* 与 cost(res)，计算 S_thr；
- 稳定性评估：计算 S_stb 与 eps_psd；
- 聚合评分：按 S62-60 输出 S_total；
- 对照实验：单因子更改参数或策略，重复 1–6 并产出 Δmetrics 与置信区间。
产物
BenchmarkReport = { B.id , cfg , cap , quota , warmup , W , S_* , eps_* , TS.* , audit.trail }。

VII. 运行规范与公平性

资源与配额
固定 cap 与 quota(k)，GPU 使用记录 MIG 或独占模式，NUMA 亲和落盘。
放置与策略
placement/policy 固定；比较放置时仅变动该因子。
时基与随机性
seed 固定；所有时间量以 tau_mono 采集并发布 ts 与 alpha/beta 映射。
观测与开销
观测通道不得超过设定上限，且将 obs_overhead 计入 cost(res)。

VIII. 报表与发布规范

报表结构
- 概要：B.id、版本与环境指纹；
- 输入：cfg/seed/cap/quota/placement；
- 结果：S_cor/S_stb/S_slo/S_thr/S_total、TS.*、eps_*、delta_form；
- 证据：gamma(ell) 摘要、U_w/ENBW、audit.trail；
- 结论：通过/不通过与建议动作。
发布口径
数值单位与量纲经 check_dim(expr) 校核；所有曲线以相同轴口径与窗口发布。

IX. 交叉引用与依赖

与连续核（第2章）
n_eff(x,t)、rho(x,t)、c_ref 的单位决定 T_arr 与 eps_mass 可比性。
与耦合推进（第4章）
advance_dt 与同步方案影响稳定性与 SLO；需要在报告中记录策略位。
与时间校准（第5章）
alpha/beta/r_rms 输入 σ_ts 与两口径对齐；delta_form 必并行报告。
与数据落盘（第6章）
manifest 包含基准清单、指标、窗口、路径与证据；对照实验的差异以 Δmetrics 落盘。
与并行化（第7章）
放置、配额与 autoscale 对吞吐与尾延迟的影响需标注；TS.hb.violations 为强制字段。
与误差预算（第8章）
评分前必须满足守恒门；N_min 与功效规划由 I60-19 提供。

X. 风险、限制与开放问题

风险
隐式资源争用或观测开销导致虚高吞吐；窗口与 ENBW 选择不当引入偏差；路径采样稀疏低估 delta_form。
限制
准解析参考在复杂介质中不可得；评分对 w* 的权重敏感。
开放问题
步长×放置×同步的联合最优化基准；多租户 dom_k 控制下的跨租户公平评分。

XI. 实现绑定层与函数原型（I60-*）

I60-21 run_benchmark(B_id:str, cfg:dict, cap:dict, quota:dict) -> RunRef
启动基准并返回运行引用，锁定 cfg/seed/placement 与 tau_mono 时基。
I60-22 collect_bench_metrics(run:RunRef, W:float) -> dict
返回 TS.*、eps_*、T_arr.*、cost(res)、窗口与谱校正参数。
I60-23 score_benchmark(metrics:dict, weights:dict) -> Scorecard
实现 S62-60..64，输出 S_* 与 S_total。
I60-24 compare_runs(base:RunRef, cand:RunRef, alpha:float) -> DiffReport
单因子对照并给出显著性判断与 Δmetrics。
I60-25 publish_report(run:RunRef, score:Scorecard, evidence:any) -> BenchmarkReport
落盘并生成发布物，更新 audit.trail。

XII. 验证与测试矩阵

微核必测
B-μ1/μ2/μ3：eps_*、delta_form 在门内；S_cor ≥ target_cor。
系统级必测
B-S1/S2/S3：TS.hb.violations = 0，TS.latency.p99 ≤ target_p99，thr_norm ≥ target_thr。
跨尺度必测
B-X1/X2/X3：稳定性与两口径一致性通过，σ_ts 传播与报告齐全。
回归门限
若 ΔS_total < -tol 或 ΔTS.latency.p99 > tol_p99，判为退化并阻断发布。

XIII. 交付件与版本管理

交付件
基准套件与工况库、评分器、对照实验脚本、报告模板、看板与导出工具。
版本管理
自 v1.0 起冻结 B.id、字段名与评分口径；新增基准以扩展名义引入并提供迁移指南。

XIV. 本章新增术语与符号（记忆）

基准与工况：B.id，cfg，seed，cap，quota(k)，placement/policy，warmup，W。
指标与评分：S_total，S_cor，S_stb，S_slo，S_thr，thr_norm，cost(res)，target_*，Δmetrics。
守恒与两口径：eps_mass，eps_norm，eps_psd，T_arr.general，T_arr.factorized，delta_form，gamma(ell)，d ell。
实现绑定：RunRef，Scorecard，BenchmarkReport，DiffReport。