目录 / 文档-技术白皮书(V5.05) / 12-EFT.WP.Methods.Repro v1.0
I. 范围与目标
- 定义复现评估所需的基准套结构、运行口径与评分函数,为不同站点与版本提供统一可比的度量与通过门。
- 产出包括:
- 基准用例类型与清单格式,含确定性/统计/谱向三类最小集。
- 评分合成函数与门限体系,核心度量 delta_rep,R_coef,delta_psd,R_spectrum,r_tb。
- 运行与采样规则、置信评估、发布报表字段,与 PipelineCard/ParamCard 的绑定流程。
II. 术语与符号
- delta_rep = ( norm( y_new - y_ref ) / max( norm( y_ref ), eps_floor ) ),复现结果相对差异。
- R_coef = 1 - delta_rep,复现系数。
- S_xx(f) 功率谱密度;U_w 窗口能量;ENBW 等效噪声带宽。
- delta_psd 谱差异度(见本章 S32-21);R_spectrum = 1 - delta_psd。
- r_tb 时基残差;alpha,beta 满足 ts = alpha + beta * tau_mono。
- gate.rep 复现通过门;tau_psd 谱门限;tau_tb 时基门限。
- 冲突名:T_fil 与 T_trans 不可混用;n 与 n_eff 严格区分;若声明 T_arr,两口径并行并发布 delta_form。
III. 公设与最小方程
- P31-15 基准可移植公设
在 EnvLock 有效、PipelineCard 与 ParamCard 完整匹配时,跨站点运行的基准统计量满足同分布一致性,偏差以 delta_rep 与 delta_psd 约束。 - S32-20 评分合成主式
- score = w1 * R_coef + w2 * R_spectrum + w3 * R_timebase + w4 * R_stability
- 其中 w1 + w2 + w3 + w4 = 1,且
R_timebase = max( 0 , 1 - ( r_tb / tau_tb ) );
R_stability = pass_rate( checks )(见第 VI 节),取值区间 [0,1]。
- S32-21 谱差异度定义(对数域 L2 口径)
- 令 L_x(f) = 10 * log10( S_xx(f) ),L_y(f) = 10 * log10( S_yy(f) ),加权函数 w(f) 满足 ( ∫ w(f) df ) = 1,则
delta_psd = ( ∫ w(f) * ( L_x(f) - L_y(f) )^2 df )^(1/2)。 - 推荐 w(f) ∝ ( W(f)^2 / ENBW ),其中 W(f) 为窗口频响。
- 令 L_x(f) = 10 * log10( S_xx(f) ),L_y(f) = 10 * log10( S_yy(f) ),加权函数 w(f) 满足 ( ∫ w(f) df ) = 1,则
- S32-22 置信评估与门限决策
令自助采样得到 delta_rep 的置信上界 delta_rep^+ 与 delta_psd^+,则通过条件
delta_rep^+ <= gate.rep 且 delta_psd^+ <= tau_psd 且 r_tb <= tau_tb。
IV. 基准套与清单口径
- 最小基准集(每类至少 1 个用例)
- 确定性类
固定 seed 与输入,预期 delta_rep → 0;覆盖边界条件、路径 gamma(ell) 与算子链的确定性重放。 - 统计类
随机源开启,比较分布性统计(均值、方差、分位数),以 delta_rep 的分布与 R_coef 的置信区间评估。 - 谱向类
对时序或场量评估 S_xx(f) 一致性,计算 delta_psd 与 R_spectrum;窗口需报告 U_w 与 ENBW。
- 确定性类
- 基准清单字段(入湖最小集)
benchmark.id,schema.version,category ∈ {deterministic, statistical, spectral},inputs,reference.uri/hash,window,rng,paths:[ gamma(ell) ](若涉及路径积分),metrics = { delta_rep, R_coef, delta_psd, R_spectrum, r_tb },gates = { gate.rep, tau_psd, tau_tb },notes。 - 到达时两口径(若用例声明 T_arr)
并行报告
T_arr = ( 1 / c_ref ) * ( ∫ n_eff d ell ) 与 T_arr = ( ∫ ( n_eff / c_ref ) d ell ),并发布 delta_form 与路径 gamma(ell)、测度 d ell 清单。
V. 算法与实现绑定
- I30-3 run_benchmark_suite(card:dict) -> BenchReport
- 解析基准清单与 RunPlan,对每用例运行 N 次(统计类要求 N >= N_min)。
- 采集输出,计算 delta_rep,R_coef,调用 I30-7 计算 delta_psd。
- 估计 r_tb(见第6章),生成单用例报告与合成 score。
- I30-4 verify_reproduction(golden:any, candidate:any, metrics:dict) -> RepReport
- 对齐时基 ts = alpha + beta * tau_mono;
- 计算 delta_rep 与 delta_psd 的置信上界;
- 输出 pass:bool 与门限对照。
- I30-7 compare_psd(x:any, y:any, window:dict) -> { delta_psd:float, pass:bool }
- 估计 S_xx(f) 与 S_yy(f),校核 U_w 与 ENBW;
- 依据 S32-21 计算 delta_psd 并与 tau_psd 比较。
VI. 计量流程与运行图
- Mx-42 benchmark-plan
- 选取基准清单与 PipelineCard 绑定;
- 校核 EnvLock 与 ParamCard;
- 生成 RunPlan 并预置 TS.* 观测点。
- Mx-43 execute-and-measure
- 逐用例执行,记录 TS.* 与输出轨迹;
- 计算 delta_rep,R_coef,delta_psd,r_tb;
- 执行稳定性检查集 checks = { monotonicity, bounds, mass_conservation, jitter },得到 R_stability = pass_rate( checks )。
- Mx-44 score-and-publish
- 合成 score 与置信区间,判定 pass;
- 生成 BenchReport 与可验证签名,入湖归档。
VII. 验证与测试矩阵
- 最小必测
- 确定性回放:相同 seed 与输入,要求 delta_rep <= gate.rep。
- 谱一致性:固定窗口,delta_psd <= tau_psd,同时校核 var( x ) ≈ ( ∫ S_xx(f) df )。
- 时基门:r_tb <= tau_tb。
- 边界与极端
- 窗口泄漏极端(退化 U_w 或异常 ENBW)应触发 E_WINDOW_INVALID(由实现绑定抛出)。
- 低信噪比段落应提升 w(f) 的稳健性(如频带屏蔽),并在报告中列出屏蔽清单。
- 统计功效
令单次方差估计为 s^2,样本数 N 满足 N >= ceil( z_{1-β}^2 * s^2 / tau^2 ),其中 tau 为目标精度,β 为 II 类错误率上限。
VIII. 报表字段与可视化
- report = { suite.id, schema.version, runs:[ ... ], metrics:{ delta_rep, R_coef, delta_psd, R_spectrum, r_tb, R_timebase, R_stability, score }, gates:{ gate.rep, tau_psd, tau_tb }, confint:{ delta_rep:[lo,hi], delta_psd:[lo,hi] }, windows:{ U_w, ENBW, w(f) }, timebase:{ alpha, beta }, arrival:{ delta_form?, paths? } }
- 可视化建议
- 误差条对比 R_coef 与 R_spectrum;
- 对数域 L_x(f) 与 L_y(f) 叠加曲线及残差;
- 时基对齐前后散点与线性拟合残差分布。
IX. 交叉引用与依赖
- 《Core.Metrology》:S_xx(f) 估计、窗口 U_w 与 ENBW、不确定度口径。
- 《Core.Threads》:运行期 TS.* 观测、hb 与 bp。
- 第5章 EnvLock;第6章 时基与随机性;第7章 PipelineCard/ParamCard;第12章 验收与发布。
X. 风险、限制与开放问题
- 风险
频带选择导致评分偏置;窗口不当引入谱泄漏;跨设备微分时基漂移低估 delta_psd。 - 限制
高维输出的 delta_rep 需要分块或特征化处理,否则掩盖局部失配;w(f) 的经验选取对结果敏感。 - 开放问题
自适应权重 w1..w4 的学习与域适配;跨域谱基准的标准频带;带有到达时两口径 T_arr 的多路径融合与 delta_form 的分解归因。
版权与许可:除另有说明外,《能量丝理论》(含文本、图表、插图、符号与公式)的著作权由作者(屠广林)享有。
许可方式(CC BY 4.0):在注明作者与来源的前提下,允许复制、转载、节选、改编与再分发。
署名格式(建议):作者:屠广林|作品:《能量丝理论》|来源:energyfilament.org|许可证:CC BY 4.0
验证召集: 作者独立自费、无雇主无资助;下一阶段将优先在最愿意公开讨论、公开复现、公开挑错的环境中推进落地,不限国家。欢迎各国媒体与同行抓住窗口组织验证,并与我们联系。
版本信息: 首次发布:2025-11-11 | 当前版本:v6.0+5.05