目录 / 文档-技术白皮书 / 54-复现实验清单 Template v1.0
I. 目标与范围(Purpose & Scope)
- 定义复现实验的指标集(Metrics)、区间口径(Coverage)与质量门(Gates)及其对齐判定方法,覆盖点估计与区间、容忍度与等价规则、门阈映射与报告格式,确保结果可比、可审计、可放行。
- 凡涉及路径量(到达时/相位),正文显式 gamma(ell) 与测度 d ell;数据侧记录 delta_form ∈ {general, factored};所有表达括号化;发布要求 p_dim = 1.0 并随附 check_dim_report.json。
II. 输入与依赖(Inputs & Dependencies)
- 依赖:第4章(环境锁定)、第5章(数据快照)、第6章(权重/参数/新鲜度)、第7章(脚本与命令)、第8章(种子/随机性/确定性)。
- 跨卷对齐:《误差预算卡》(区间/阈值)、**《模型卡》Ch.7/Ch.8、《数据集卡》Ch.11、《管线卡》**Ch.9。
- 引用统一“卷名 + 版本 + 锚点(P/S/M/I)”,锚点直指率 ≥ 90%。
III. 指标集(Metrics Set)
- 主指标:MAE、RMSE、AUC/ACC(按任务)、Latency_P95、Throughput、Q_res(稳健残差)、p_dim(=1)。
- 路径相关(如适用):ΔT_arr (s)、r_phi (1)、ε_flux (1)。
- 统计窗口:显式 @window=... 与分层(batch/device/region/slice_k),统一采样与聚合口径。
IV. 区间与覆盖(Intervals & Coverage)
- 模式三选一并全卷一致:
- k 覆盖:U = k·u_c;
- alpha 置信:t_{ν,1−α/2} 或正态近似;
- quantile[p_lo,p_hi](如 [0.025, 0.975])。
- 报告要求:所有关键指标均给点估计 + 区间;图表以误差棒/带显示并在图注标明覆盖模式与参数。
- 小样本自由度:Δ法用 Welch–Satterthwaite 估计自由度。
V. 对齐判定与容忍(Alignment & Tolerances)
- 数值容忍:定义 τ_mae, τ_rmse, τ_auc, τ_lat, τ_thr 等;|m_repro − m_ref| ≤ τ_m 判等价。
- 区间容忍:复现实验区间须与参考区间重叠或落入同一覆盖带;若不重叠则判失配。
- 曲线一致:收敛曲线/功耗/性能曲线要求在容忍带内;给出 Hausdorff/MAD 或带宽差指标。
- 跨平台容忍:同平台/同库要求 bit-wise 或 ULP≤N;跨平台允许小幅数值差但必须处于同一覆盖区间。
VI. 路径量统一口径(Normative Path Forms)
- 到达时(两式等价):
T_arr = ( 1 / c_ref ) * ( ∫ n_eff d ell )
T_arr = ( ∫ ( n_eff / c_ref ) d ell ) - 相位累计:
Phi = ( 2π / λ_ref ) * ( ∫ n_eff d ell )
判定前按“时间→路径→相位”对齐;len(gamma_ell)=len(d_ell)=len(n_eff)≥2;delta_form 回显;维度闭合 p_dim = 1.0。
VII. 门阈映射与决策(Gate Mapping & Decision)
- G1 Schema 完整|G2 引用合规|G3 路径规范|G4 量纲闭合|G5 新鲜度|G6 覆盖一致|G7 协方差一致|G8 唯一性与无环。
- 阈值示例(与《误差预算卡》/《模型卡》一致):
- |ΔT_arr| + U(T_arr) ≤ τ_T;
- LB(r_phi) ≥ r_phi_min;
- P95(ε_flux) ≤ ε_flux_guard;
- Latency_P95 ≤ SLA、Throughput ≥ SLO。
- 放行规则:核心门通过且所有关键指标“点 + 区间”满足阈值 → Pass;否则 Fail / [Restricted](仅定性呈现)。
VIII. 机读规格(Machine-Readable Specs)
A. eval/compare_spec.yaml
version: "1.0.0"
coverage: { mode: "k", k: 2 } # k|alpha|quantile
metrics:
mae: { tolerance: 1.0e-4 }
auc: { tolerance: 2.0e-3 }
r_phi:{ lb95_min: 0.60 }
delta_t_arr_s: { guard: "tau_T_s" }
epsilon_flux_p95: { guard: 0.02 }
latency_p95_s: { guard: 0.200 }
rules:
interval_overlap_required: true
same_coverage_band_required: true
B. reports/validate_report.json(节选)
{
"gates":{"G1":true,"G2":0.94,"G3":true,"G4":true,"G5":true,"G6":true,"G7":true,"G8":true},
"metrics":{
"MAE":{"ref":0.0123,"repro":0.0124,"within_tol":true},
"Latency_P95_s":{"ref":0.182,"repro":0.188,"within_guard":true}
},
"intervals":{
"r_phi":{"ref":[0.61,0.80],"repro":[0.62,0.79],"overlap":true}
},
"decision":"pass"
}
C. 图表导出:figs/metric_curves.{pdf,png}、figs/interval_bands.{svg,png},图注含单位与覆盖模式。
IX. 反例与修正(Anti-Patterns & Fixes)
- 反例:仅报均值不报区间 → 修正:补充 U = k·u_c 或分位带并给出收敛诊断。
- 反例:T_arr = ∫ n_eff / c_ref d ell(缺括号) → 修正:括号化为统一口径。
- 反例:覆盖模式跨卷不一致 → 修正:统一为单一模式并在清单与图注声明。
- 反例:跨平台结果落入不同覆盖带 → 修正:收紧容忍或采用稳定算法/高精度直至一致。
- 反例:路径数组不同长或未回显 delta_form → 修正:校齐长度并回显元数据。
X. 交叉引用(Cross-References)
- 第3章(目录与制品)、第5章(数据快照)、第6章(权重/参数)、第7章(脚本)、第8章(种子/确定性)、第10章(复现实验流程)。
- 《模型卡》Ch.7/Ch.8、《误差预算卡》Ch.8/Ch.9、《数据集卡》Ch.11、《管线卡》Ch.9。
XI. 勾选清单(Checklist)
- compare_spec.yaml 与跨卷口径一致,覆盖模式已锁定;
- 所有关键指标已提供点 + 区间;容忍与阈值明确,收敛诊断完备;
- 路径对齐显式 gamma/measure/delta_form;len(path) ≥ 2、Δell 合规;
- check_dim_report.json 通过、p_dim = 1.0;/validate 通过 G1–G8;
- 结果图表双份导出并标注单位、see[]/version 与覆盖说明;不合规项按 [Restricted] 标注与处置。
版权与许可(CC BY 4.0)
版权声明:除另有说明外,《能量丝理论》(含文本、图表、插图、符号与公式)的著作权由作者(“屠广林”先生)享有。
许可方式:本作品采用 Creative Commons 署名 4.0 国际许可协议(CC BY 4.0)进行许可;在注明作者与来源的前提下,允许为商业或非商业目的进行复制、转载、节选、改编与再分发。
署名格式(建议):作者:“屠广林”;作品:《能量丝理论》;来源:energyfilament.org;许可证:CC BY 4.0。
首次发布: 2025-11-11|当前版本:v5.1
协议链接:https://creativecommons.org/licenses/by/4.0/