目录 / 文档-技术白皮书 / 13-EFT.WP.Methods.SimStack v1.0
I. 范围与目标
- 本章定义可复现的基准族与评分体系,覆盖微核、系统级与跨尺度场景,统一输入工况、指标与报告口径。
- 目标:以清单化证据评价正确性、稳定性、SLO 与吞吐,并据此进行参数标定与对照实验;所有时间量以 tau_mono 记录并发布 ts,两口径 T_arr 并行报告。
II. 术语与符号
- 基准与工况
B.id(基准编号),cfg(配置),seed(随机种子),cap(资源上限),quota(k)(租户配额)。 - 评分与指标
- S_total(总评分),S_cor(正确性),S_stb(稳定性),S_slo(SLO),S_thr(吞吐)。
- TS.latency.p99,TS.throughput.rps,TS.util.*,TS.hb.violations。
- 守恒与两口径
- eps_mass,eps_norm,eps_psd,T_arr.general,T_arr.factorized,delta_form。
- 路径与测度:gamma(ell),d ell。
- 时基与窗口
warmup(预热时长),W(统计窗口),U_w,ENBW。
III. 公设与最小方程(P61-/S62-)
- P61-18(可复现与环境锁定)
任何 B.id 的发布,必须落盘 cfg、seed、容器镜像与依赖指纹,禁止隐式可变因素。 - P61-19(公平比较)
比对仅在相同 cap、quota(k)、placement/policy 与 gamma(ell) 口径下成立;变更需作为单因子实验。 - P61-20(守恒门优先)
若 eps_mass、eps_norm、eps_psd、delta_form 任一越门,则本次评分无效。 - S62-60(评分聚合:加权几何)
S_total = ( S_cor^w1 * S_stb^w2 * S_slo^w3 * S_thr^w4 )^( 1 / ( w1 + w2 + w3 + w4 ) ),建议 w1 ≥ w2 ≥ w3 ≥ w4。 - S62-61(正确性得分)
对任一 QoI:e_rms = sqrt( mean( ( Q - Q_ref )^2 ) ),
S_cor = max( 0 , 1 - e_rms / gate(Q) )。 - S62-62(稳定性得分)
cv = std(Q) / max( ε , mean(Q) )(滑窗 W),S_stb = 1 / ( 1 + cv / target_cv )。 - S62-63(SLO 得分)
S_slo = min( 1 , target_p99 / TS.latency.p99 ) * I( TS.hb.violations = 0 ),I 为指示函数。 - S62-64(吞吐得分)
资源归一化吞吐 thr_norm = TS.throughput.rps / cost(res),S_thr = min( 1 , thr_norm / target_thr )。 - S62-65(预热与截尾)
统计采用区间 [warmup , T_end - cooldown],并以 U_w 与 ENBW 校正谱量。
IV. 基准清单与输入工况
- 微核(可解析或准解析对比)
- B-μ1: 路径积分核:计算 T_arr.general 与 T_arr.factorized,输出 delta_form 与路径清单 gamma(ell)。
- B-μ2: 守恒核:体积域 V 的 M(t) = ( ∫_V rho dV ) 与通量闭合,输出 eps_mass。
- B-μ3: 谱一致性核:给定 S_xx(f) 生成时间序列,校核 eps_psd 与 U_w/ENBW 口径。
- 系统级(端到端线程网络)
- B-S1: 有界背压流水线:固定 G=(V,E) 与 req(v),考察 TS.latency.p99、TS.queue.backlog。
- B-S2: 网络感知放置:切换放置策略,对比 CommCost 与 S_total。
- B-S3: 弹性伸缩:触发 autoscale,评估震荡与 TS.hb.violations。
- 跨尺度(连续×离散耦合)
- B-X1: I60-1 couple_fields + I60-3 advance_dt 的 CFL 自适应回路,评估稳定性与正确性。
- B-X2: 到达时校准闭环:I60-4 calibrate_arrival_time 与观测对齐,评估 delta_form 与 σ_ts 传播。
- B-X3: 多路径 gamma(ell) 合成:比较等价处理与显式枚举的差异。
V. 指标族与评分口径
- 正确性
微核以解析解或高精参考 Q_ref;系统级以基线版本为 Q_ref;跨尺度同时给出两口径 T_arr 与守恒证据。 - 稳定性
在窗口 W 上计算 cv,并发布 ts 版与 tau_mono 版;谱量按 U_w、ENBW 校正。 - SLO
至少包含 TS.latency.p99、TS.sli.success_rate、TS.hb.violations。 - 吞吐
报告 TS.throughput.rps 与归一化 thr_norm,同时给出资源账单 cost(res)。
VI. 标定流程与对照实验(Mx-64 benchmark-report)
- 入口条件
通过 Mx-61(时间校准)与 Mx-62(守恒校核);锁定 cfg/seed/cap/quota 与放置策略。 - 流程
- 预热与截尾:运行至 warmup,稳定后采集窗口 W;
- 微核正确性标定:计算 S_cor 与 eps_*;
- 系统级 SLO 标定:测量 TS.latency.p99、TS.queue.backlog,计算 S_slo;
- 吞吐与成本:采集 TS.throughput.rps、TS.util.* 与 cost(res),计算 S_thr;
- 稳定性评估:计算 S_stb 与 eps_psd;
- 聚合评分:按 S62-60 输出 S_total;
- 对照实验:单因子更改参数或策略,重复 1–6 并产出 Δmetrics 与置信区间。
- 产物
BenchmarkReport = { B.id , cfg , cap , quota , warmup , W , S_* , eps_* , TS.* , audit.trail }。
VII. 运行规范与公平性
- 资源与配额
固定 cap 与 quota(k),GPU 使用记录 MIG 或独占模式,NUMA 亲和落盘。 - 放置与策略
placement/policy 固定;比较放置时仅变动该因子。 - 时基与随机性
seed 固定;所有时间量以 tau_mono 采集并发布 ts 与 alpha/beta 映射。 - 观测与开销
观测通道不得超过设定上限,且将 obs_overhead 计入 cost(res)。
VIII. 报表与发布规范
- 报表结构
- 概要:B.id、版本与环境指纹;
- 输入:cfg/seed/cap/quota/placement;
- 结果:S_cor/S_stb/S_slo/S_thr/S_total、TS.*、eps_*、delta_form;
- 证据:gamma(ell) 摘要、U_w/ENBW、audit.trail;
- 结论:通过/不通过与建议动作。
- 发布口径
数值单位与量纲经 check_dim(expr) 校核;所有曲线以相同轴口径与窗口发布。
IX. 交叉引用与依赖
- 与连续核(第2章)
n_eff(x,t)、rho(x,t)、c_ref 的单位决定 T_arr 与 eps_mass 可比性。 - 与耦合推进(第4章)
advance_dt 与同步方案影响稳定性与 SLO;需要在报告中记录策略位。 - 与时间校准(第5章)
alpha/beta/r_rms 输入 σ_ts 与两口径对齐;delta_form 必并行报告。 - 与数据落盘(第6章)
manifest 包含基准清单、指标、窗口、路径与证据;对照实验的差异以 Δmetrics 落盘。 - 与并行化(第7章)
放置、配额与 autoscale 对吞吐与尾延迟的影响需标注;TS.hb.violations 为强制字段。 - 与误差预算(第8章)
评分前必须满足守恒门;N_min 与功效规划由 I60-19 提供。
X. 风险、限制与开放问题
- 风险
隐式资源争用或观测开销导致虚高吞吐;窗口与 ENBW 选择不当引入偏差;路径采样稀疏低估 delta_form。 - 限制
准解析参考在复杂介质中不可得;评分对 w* 的权重敏感。 - 开放问题
步长×放置×同步 的联合最优化基准;多租户 dom_k 控制下的跨租户公平评分。
XI. 实现绑定层与函数原型(I60-*)
- I60-21 run_benchmark(B_id:str, cfg:dict, cap:dict, quota:dict) -> RunRef
启动基准并返回运行引用,锁定 cfg/seed/placement 与 tau_mono 时基。 - I60-22 collect_bench_metrics(run:RunRef, W:float) -> dict
返回 TS.*、eps_*、T_arr.*、cost(res)、窗口与谱校正参数。 - I60-23 score_benchmark(metrics:dict, weights:dict) -> Scorecard
实现 S62-60..64,输出 S_* 与 S_total。 - I60-24 compare_runs(base:RunRef, cand:RunRef, alpha:float) -> DiffReport
单因子对照并给出显著性判断与 Δmetrics。 - I60-25 publish_report(run:RunRef, score:Scorecard, evidence:any) -> BenchmarkReport
落盘并生成发布物,更新 audit.trail。
XII. 验证与测试矩阵
- 微核必测
B-μ1/μ2/μ3:eps_*、delta_form 在门内;S_cor ≥ target_cor。 - 系统级必测
B-S1/S2/S3:TS.hb.violations = 0,TS.latency.p99 ≤ target_p99,thr_norm ≥ target_thr。 - 跨尺度必测
B-X1/X2/X3:稳定性与两口径一致性通过,σ_ts 传播与报告齐全。 - 回归门限
若 ΔS_total < -tol 或 ΔTS.latency.p99 > tol_p99,判为退化并阻断发布。
XIII. 交付件与版本管理
- 交付件
基准套件与工况库、评分器、对照实验脚本、报告模板、看板与导出工具。 - 版本管理
自 v1.0 起冻结 B.id、字段名与评分口径;新增基准以扩展名义引入并提供迁移指南。
XIV. 本章新增术语与符号(记忆)
- 基准与工况:B.id,cfg,seed,cap,quota(k),placement/policy,warmup,W。
- 指标与评分:S_total,S_cor,S_stb,S_slo,S_thr,thr_norm,cost(res),target_*,Δmetrics。
- 守恒与两口径:eps_mass,eps_norm,eps_psd,T_arr.general,T_arr.factorized,delta_form,gamma(ell),d ell。
- 实现绑定:RunRef,Scorecard,BenchmarkReport,DiffReport。
版权与许可(CC BY 4.0)
版权声明:除另有说明外,《能量丝理论》(含文本、图表、插图、符号与公式)的著作权由作者(“屠广林”先生)享有。
许可方式:本作品采用 Creative Commons 署名 4.0 国际许可协议(CC BY 4.0)进行许可;在注明作者与来源的前提下,允许为商业或非商业目的进行复制、转载、节选、改编与再分发。
署名格式(建议):作者:“屠广林”;作品:《能量丝理论》;来源:energyfilament.org;许可证:CC BY 4.0。
首次发布: 2025-11-11|当前版本:v5.1
协议链接:https://creativecommons.org/licenses/by/4.0/