目录文档-技术白皮书(V5.05)12-EFT.WP.Methods.Repro v1.0

第8章 基准套与评分


I. 范围与目标

  1. 定义复现评估所需的基准套结构、运行口径与评分函数,为不同站点与版本提供统一可比的度量与通过门。
  2. 产出包括:
    • 基准用例类型与清单格式,含确定性/统计/谱向三类最小集。
    • 评分合成函数与门限体系,核心度量 delta_rep,R_coef,delta_psd,R_spectrum,r_tb。
    • 运行与采样规则、置信评估、发布报表字段,与 PipelineCard/ParamCard 的绑定流程。

II. 术语与符号


III. 公设与最小方程

  1. P31-15 基准可移植公设
    在 EnvLock 有效、PipelineCard 与 ParamCard 完整匹配时,跨站点运行的基准统计量满足同分布一致性,偏差以 delta_rep 与 delta_psd 约束。
  2. S32-20 评分合成主式
    • score = w1 * R_coef + w2 * R_spectrum + w3 * R_timebase + w4 * R_stability
    • 其中 w1 + w2 + w3 + w4 = 1,且
      R_timebase = max( 0 , 1 - ( r_tb / tau_tb ) );
      R_stability = pass_rate( checks )(见第 VI 节),取值区间 [0,1]。
  3. S32-21 谱差异度定义(对数域 L2 口径)
    • 令 L_x(f) = 10 * log10( S_xx(f) ),L_y(f) = 10 * log10( S_yy(f) ),加权函数 w(f) 满足 ( ∫ w(f) df ) = 1,则
      delta_psd = ( ∫ w(f) * ( L_x(f) - L_y(f) )^2 df )^(1/2)。
    • 推荐 w(f) ∝ ( W(f)^2 / ENBW ),其中 W(f) 为窗口频响。
  4. S32-22 置信评估与门限决策
    令自助采样得到 delta_rep 的置信上界 delta_rep^+ 与 delta_psd^+,则通过条件
    delta_rep^+ <= gate.rep 且 delta_psd^+ <= tau_psd 且 r_tb <= tau_tb。

IV. 基准套与清单口径

  1. 最小基准集(每类至少 1 个用例)
    • 确定性类
      固定 seed 与输入,预期 delta_rep → 0;覆盖边界条件、路径 gamma(ell) 与算子链的确定性重放。
    • 统计类
      随机源开启,比较分布性统计(均值、方差、分位数),以 delta_rep 的分布与 R_coef 的置信区间评估。
    • 谱向类
      对时序或场量评估 S_xx(f) 一致性,计算 delta_psd 与 R_spectrum;窗口需报告 U_w 与 ENBW。
  2. 基准清单字段(入湖最小集)
    benchmark.id,schema.version,category ∈ {deterministic, statistical, spectral},inputs,reference.uri/hash,window,rng,paths:[ gamma(ell) ](若涉及路径积分),metrics = { delta_rep, R_coef, delta_psd, R_spectrum, r_tb },gates = { gate.rep, tau_psd, tau_tb },notes。
  3. 到达时两口径(若用例声明 T_arr)
    并行报告
    T_arr = ( 1 / c_ref ) * ( ∫ n_eff d ell ) 与 T_arr = ( ∫ ( n_eff / c_ref ) d ell ),并发布 delta_form 与路径 gamma(ell)、测度 d ell 清单。

V. 算法与实现绑定

  1. I30-3 run_benchmark_suite(card:dict) -> BenchReport
    • 解析基准清单与 RunPlan,对每用例运行 N 次(统计类要求 N >= N_min)。
    • 采集输出,计算 delta_rep,R_coef,调用 I30-7 计算 delta_psd。
    • 估计 r_tb(见第6章),生成单用例报告与合成 score。
  2. I30-4 verify_reproduction(golden:any, candidate:any, metrics:dict) -> RepReport
    • 对齐时基 ts = alpha + beta * tau_mono;
    • 计算 delta_rep 与 delta_psd 的置信上界;
    • 输出 pass:bool 与门限对照。
  3. I30-7 compare_psd(x:any, y:any, window:dict) -> { delta_psd:float, pass:bool }
    • 估计 S_xx(f) 与 S_yy(f),校核 U_w 与 ENBW;
    • 依据 S32-21 计算 delta_psd 并与 tau_psd 比较。

VI. 计量流程与运行图

  1. Mx-42 benchmark-plan
    • 选取基准清单与 PipelineCard 绑定;
    • 校核 EnvLock 与 ParamCard;
    • 生成 RunPlan 并预置 TS.* 观测点。
  2. Mx-43 execute-and-measure
    • 逐用例执行,记录 TS.* 与输出轨迹;
    • 计算 delta_rep,R_coef,delta_psd,r_tb;
    • 执行稳定性检查集 checks = { monotonicity, bounds, mass_conservation, jitter },得到 R_stability = pass_rate( checks )。
  3. Mx-44 score-and-publish
    • 合成 score 与置信区间,判定 pass;
    • 生成 BenchReport 与可验证签名,入湖归档。

VII. 验证与测试矩阵

  1. 最小必测
    • 确定性回放:相同 seed 与输入,要求 delta_rep <= gate.rep。
    • 谱一致性:固定窗口,delta_psd <= tau_psd,同时校核 var( x ) ≈ ( ∫ S_xx(f) df )。
    • 时基门:r_tb <= tau_tb。
  2. 边界与极端
    • 窗口泄漏极端(退化 U_w 或异常 ENBW)应触发 E_WINDOW_INVALID(由实现绑定抛出)。
    • 低信噪比段落应提升 w(f) 的稳健性(如频带屏蔽),并在报告中列出屏蔽清单。
  3. 统计功效
    令单次方差估计为 s^2,样本数 N 满足 N >= ceil( z_{1-β}^2 * s^2 / tau^2 ),其中 tau 为目标精度,β 为 II 类错误率上限。

VIII. 报表字段与可视化

  1. report = { suite.id, schema.version, runs:[ ... ], metrics:{ delta_rep, R_coef, delta_psd, R_spectrum, r_tb, R_timebase, R_stability, score }, gates:{ gate.rep, tau_psd, tau_tb }, confint:{ delta_rep:[lo,hi], delta_psd:[lo,hi] }, windows:{ U_w, ENBW, w(f) }, timebase:{ alpha, beta }, arrival:{ delta_form?, paths? } }
  2. 可视化建议
    • 误差条对比 R_coef 与 R_spectrum;
    • 对数域 L_x(f) 与 L_y(f) 叠加曲线及残差;
    • 时基对齐前后散点与线性拟合残差分布。

IX. 交叉引用与依赖


X. 风险、限制与开放问题


版权与许可:除另有说明外,《能量丝理论》(含文本、图表、插图、符号与公式)的著作权由作者(屠广林)享有。
许可方式(CC BY 4.0):在注明作者与来源的前提下,允许复制、转载、节选、改编与再分发。
署名格式(建议):作者:屠广林|作品:《能量丝理论》|来源:energyfilament.org|许可证:CC BY 4.0
验证召集: 作者独立自费、无雇主无资助;下一阶段将优先在最愿意公开讨论、公开复现、公开挑错的环境中推进落地,不限国家。欢迎各国媒体与同行抓住窗口组织验证,并与我们联系。
版本信息: 首次发布:2025-11-11 | 当前版本:v6.0+5.05