12-EFT.WP.Methods.Repro v1.0 | 第8章基准套与评分

目录／文档-技术白皮书（V5.05）／ 12-EFT.WP.Methods.Repro v1.0

第8章基准套与评分

I. 范围与目标

定义复现评估所需的基准套结构、运行口径与评分函数，为不同站点与版本提供统一可比的度量与通过门。
产出包括：
- 基准用例类型与清单格式，含确定性/统计/谱向三类最小集。
- 评分合成函数与门限体系，核心度量 delta_rep，R_coef，delta_psd，R_spectrum，r_tb。
- 运行与采样规则、置信评估、发布报表字段，与 PipelineCard/ParamCard 的绑定流程。

II. 术语与符号

delta_rep = ( norm( y_new - y_ref ) / max( norm( y_ref ), eps_floor ) )，复现结果相对差异。
R_coef = 1 - delta_rep，复现系数。
S_xx(f) 功率谱密度；U_w 窗口能量；ENBW 等效噪声带宽。
delta_psd 谱差异度（见本章 S32-21）；R_spectrum = 1 - delta_psd。
r_tb 时基残差；alpha,beta 满足 ts = alpha + beta * tau_mono。
gate.rep 复现通过门；tau_psd 谱门限；tau_tb 时基门限。
冲突名：T_fil 与 T_trans 不可混用；n 与 n_eff 严格区分；若声明 T_arr，两口径并行并发布 delta_form。

III. 公设与最小方程

P31-15 基准可移植公设
在 EnvLock 有效、PipelineCard 与 ParamCard 完整匹配时，跨站点运行的基准统计量满足同分布一致性，偏差以 delta_rep 与 delta_psd 约束。
S32-20 评分合成主式
- score = w1 * R_coef + w2 * R_spectrum + w3 * R_timebase + w4 * R_stability
- 其中 w1 + w2 + w3 + w4 = 1，且
  R_timebase = max( 0 , 1 - ( r_tb / tau_tb ) )；
  R_stability = pass_rate( checks )（见第 VI 节），取值区间 [0,1]。
S32-21 谱差异度定义（对数域 L2 口径）
- 令 L_x(f) = 10 * log10( S_xx(f) )，L_y(f) = 10 * log10( S_yy(f) )，加权函数 w(f) 满足 ( ∫ w(f) df ) = 1，则
  delta_psd = ( ∫ w(f) * ( L_x(f) - L_y(f) )^2 df )^(1/2)。
- 推荐 w(f) ∝ ( W(f)^2 / ENBW )，其中 W(f) 为窗口频响。
S32-22 置信评估与门限决策
令自助采样得到 delta_rep 的置信上界 delta_rep^+ 与 delta_psd^+，则通过条件
delta_rep^+ <= gate.rep 且 delta_psd^+ <= tau_psd 且 r_tb <= tau_tb。

IV. 基准套与清单口径

最小基准集（每类至少 1 个用例）
- 确定性类
  固定 seed 与输入，预期 delta_rep → 0；覆盖边界条件、路径 gamma(ell) 与算子链的确定性重放。
- 统计类
  随机源开启，比较分布性统计（均值、方差、分位数），以 delta_rep 的分布与 R_coef 的置信区间评估。
- 谱向类
  对时序或场量评估 S_xx(f) 一致性，计算 delta_psd 与 R_spectrum；窗口需报告 U_w 与 ENBW。
基准清单字段（入湖最小集）
benchmark.id，schema.version，category ∈ {deterministic, statistical, spectral}，inputs，reference.uri/hash，window，rng，paths:[ gamma(ell) ]（若涉及路径积分），metrics = { delta_rep, R_coef, delta_psd, R_spectrum, r_tb }，gates = { gate.rep, tau_psd, tau_tb }，notes。
到达时两口径（若用例声明 T_arr）
并行报告
T_arr = ( 1 / c_ref ) * ( ∫ n_eff d ell ) 与 T_arr = ( ∫ ( n_eff / c_ref ) d ell )，并发布 delta_form 与路径 gamma(ell)、测度 d ell 清单。

V. 算法与实现绑定

I30-3 run_benchmark_suite(card:dict) -> BenchReport
- 解析基准清单与 RunPlan，对每用例运行 N 次（统计类要求 N >= N_min）。
- 采集输出，计算 delta_rep，R_coef，调用 I30-7 计算 delta_psd。
- 估计 r_tb（见第6章），生成单用例报告与合成 score。
I30-4 verify_reproduction(golden:any, candidate:any, metrics:dict) -> RepReport
- 对齐时基 ts = alpha + beta * tau_mono；
- 计算 delta_rep 与 delta_psd 的置信上界；
- 输出 pass:bool 与门限对照。
I30-7 compare_psd(x:any, y:any, window:dict) -> { delta_psd:float, pass:bool }
- 估计 S_xx(f) 与 S_yy(f)，校核 U_w 与 ENBW；
- 依据 S32-21 计算 delta_psd 并与 tau_psd 比较。

VI. 计量流程与运行图

Mx-42 benchmark-plan
- 选取基准清单与 PipelineCard 绑定；
- 校核 EnvLock 与 ParamCard；
- 生成 RunPlan 并预置 TS.* 观测点。
Mx-43 execute-and-measure
- 逐用例执行，记录 TS.* 与输出轨迹；
- 计算 delta_rep，R_coef，delta_psd，r_tb；
- 执行稳定性检查集 checks = { monotonicity, bounds, mass_conservation, jitter }，得到 R_stability = pass_rate( checks )。
Mx-44 score-and-publish
- 合成 score 与置信区间，判定 pass；
- 生成 BenchReport 与可验证签名，入湖归档。

VII. 验证与测试矩阵

最小必测
- 确定性回放：相同 seed 与输入，要求 delta_rep <= gate.rep。
- 谱一致性：固定窗口，delta_psd <= tau_psd，同时校核 var( x ) ≈ ( ∫ S_xx(f) df )。
- 时基门：r_tb <= tau_tb。
边界与极端
- 窗口泄漏极端（退化 U_w 或异常 ENBW）应触发 E_WINDOW_INVALID（由实现绑定抛出）。
- 低信噪比段落应提升 w(f) 的稳健性（如频带屏蔽），并在报告中列出屏蔽清单。
统计功效
令单次方差估计为 s^2，样本数 N 满足 N >= ceil( z_{1-β}^2 * s^2 / tau^2 )，其中 tau 为目标精度，β 为 II 类错误率上限。

VIII. 报表字段与可视化

report = { suite.id, schema.version, runs:[ ... ], metrics:{ delta_rep, R_coef, delta_psd, R_spectrum, r_tb, R_timebase, R_stability, score }, gates:{ gate.rep, tau_psd, tau_tb }, confint:{ delta_rep:[lo,hi], delta_psd:[lo,hi] }, windows:{ U_w, ENBW, w(f) }, timebase:{ alpha, beta }, arrival:{ delta_form?, paths? } }
可视化建议
- 误差条对比 R_coef 与 R_spectrum；
- 对数域 L_x(f) 与 L_y(f) 叠加曲线及残差；
- 时基对齐前后散点与线性拟合残差分布。

IX. 交叉引用与依赖

《Core.Metrology》：S_xx(f) 估计、窗口 U_w 与 ENBW、不确定度口径。
《Core.Threads》：运行期 TS.* 观测、hb 与 bp。
第5章 EnvLock；第6章时基与随机性；第7章 PipelineCard/ParamCard；第12章验收与发布。

X. 风险、限制与开放问题

风险
频带选择导致评分偏置；窗口不当引入谱泄漏；跨设备微分时基漂移低估 delta_psd。
限制
高维输出的 delta_rep 需要分块或特征化处理，否则掩盖局部失配；w(f) 的经验选取对结果敏感。
开放问题
自适应权重 w1..w4 的学习与域适配；跨域谱基准的标准频带；带有到达时两口径 T_arr 的多路径融合与 delta_form 的分解归因。

版权与许可：除另有说明外，《能量丝理论》（含文本、图表、插图、符号与公式）的著作权由作者（屠广林）享有。
许可方式（CC BY 4.0）：在注明作者与来源的前提下，允许复制、转载、节选、改编与再分发。
署名格式（建议）：作者：屠广林｜作品：《能量丝理论》｜来源：energyfilament.org｜许可证：CC BY 4.0
验证召集： 作者独立自费、无雇主无资助；下一阶段将优先在最愿意公开讨论、公开复现、公开挑错的环境中推进落地，不限国家。欢迎各国媒体与同行抓住窗口组织验证，并与我们联系。
版本信息： 首次发布：2025-11-11 ｜当前版本：v6.0+5.05