12-EFT.WP.Methods.Repro v1.0 | 第12章复现验收与评分发布 | 能量丝理论

第12章复现验收与评分发布

I. 范围与目标

建立统一的复现验收工作流与评分发布口径，使候选实现在固定 EnvLock、seed 与时基映射 ts = alpha + beta * tau_mono 下，依据基准套与门限完成自动化判定与分层发布。
目标产出包括：RepReport、BenchReport、综合分 score 及其置信区间、审计签名与发布包；并保证两口径到达时 T_arr 的差异量 delta_form 与谱向一致性均纳入门限判定。

II. 术语与符号

score：复现综合分，范围 [0,1]，越大越好。
tau_score：综合分门限；CI_score：score 的置信区间；z：置信系数对应分位。
r_tb：时基对齐残差度量；tau_tb：其门限；delta_psd：谱差异归一量；tau_psd：其门限。
gate.rep：结果差异硬门；eps_mass、eps_norm：守恒与归一化残差；tau_mass：守恒门限。
case_weight：基准用例权重；w_rep、w_psd、w_tb、w_perf、w_cons：维度权重，满足 w_rep + w_psd + w_tb + w_perf + w_cons = 1。
渠道：canary、stable、LTS；发布包以 hash(·) 与 fingerprint 标识。

III. 公设与最小方程

P31-30 验收稳定性公设
在固定 EnvLock、seed、alpha,beta 与数据 fingerprint 的条件下，多次验收的判定结果在门限公差内一致；形式化为
Pr( decision_run1 = decision_run2 ) → 1 当样本数量与观测窗充分时。
P31-31 评分单调不劣公设
若更改仅在误差修复，不改变口径与数据分布，则 score_new >= score_old - tau_reg，其中 tau_reg 为回归公差。
S32-39 用例级评分
score_case = w_rep*( 1 - delta_rep ) + w_psd*( 1 - delta_psd ) + w_tb*( 1 - clip( r_tb / tau_tb , 0 , 1 ) ) + w_perf*perf_norm + w_cons*( 1 - clip( eps_mass / tau_mass , 0 , 1 ) )。
S32-40 基准套聚合
score = ( Σ ( case_weight * score_case ) ) / ( Σ case_weight )；R_coef = 1 - delta_rep 同步报告。
S32-41 置信区间与通过门
- sigma_hat = std( { score_case } )；CI_score = [ score - z * ( sigma_hat / sqrt(N) ) , score + z * ( sigma_hat / sqrt(N) ) ]；
- 验收条件为
  delta_rep <= gate.rep 且 delta_psd <= tau_psd 且 r_tb <= tau_tb 且 lower( CI_score ) >= tau_score。
S32-42 到达时两口径一致性
同时计算 T_arr = ( 1 / c_ref ) * ( ∫ n_eff d ell ) 与 T_arr = ( ∫ ( n_eff / c_ref ) d ell )，报告 delta_form = | T_arr(form1) - T_arr(form2) | / max( |T_arr(form1)| , |T_arr(form2)| ) 并纳入 score_case 的 w_cons 分量。

IV. 数据与清单口径

验收包最小字段
EnvLock、PipelineCard、ParamCard、数据指纹 fingerprint、产物 hash(·)、基准套版本与用例清单、U_w、ENBW、gamma(ell) 与测度 d ell（如涉及路径积分）、alpha,beta 与拟合 fit、seed 与生成器族。
口径一致性
明示所有单位并执行 check_dim(expr)；涉及 T_arr、S_xx(f) 时，发布窗函数与观测窗 T_obs，并固定 c_ref、n_eff 的适用域。
审计与签名
按第9章审计轨格式，逐事件链接 H_k = hash( H_{k-1} || event ) 并附 sig_k；验收包附公开验证钥指针 verifier.pk_ref。

V. 算法与实现绑定

I30-3 run_benchmark_suite(card:dict) -> BenchReport
输入 PipelineCard/ParamCard 与基准套；输出逐用例的 delta_rep、delta_psd、r_tb、eps_mass、perf_norm、R_coef 与原始观测摘要。
I30-4 verify_reproduction(golden:any, candidate:any, metrics:dict) -> RepReport
以固定 EnvLock、seed、alpha,beta 对齐后，对每用例产出是否过门与差异分解。
I30-22 compose_score(bench:BenchReport, weights:dict) -> {score:float, CI_score:list, details:any}
实现 S32-39/40/41，并返回 score、CI_score 与逐维度贡献。
I30-23 prepare_release_bundle(rep:RepReport, score:any, audit:any) -> ReleaseBundle
聚合验收包、审计轨与对外摘要；生成 fingerprint 与可验证元信息。
I30-24 sign_and_publish(bundle:any, channel:str) -> PublishReport
将包签名后推送至 canary/stable/LTS，记录提交指纹与可回滚锚点。

VI. 计量流程与运行图

Mx-31 precheck-and-freeze
- 校验 EnvLock 与数据 fingerprint；
- 重放时基拟合 alpha,beta 并确认 fit 达标；
- 固定 seed，锁定观测窗 T_obs 与 U_w/ENBW。
Mx-32 run-and-measure
- 调用 I30-3 与 I30-4 生成 BenchReport/RepReport；
- 计算 score 与 CI_score（I30-22）；
- 输出用例级与聚合级的过门判定。
Mx-33 decide-and-route
- 若满足 S32-41，生成 Accept 决议；
- 若 lower( CI_score ) < tau_score 但硬门均过，则标记 Conditional，进入加样或延长观测窗；
- 否则 Reject，生成回退建议并对接第11章回退剧本。
Mx-34 sign-and-release
- 组装与签名发布包（I30-23/24），选择 canary/stable/LTS；
- 在第9章监控轨上注册运行期 SLO 与复现门联动告警；
- 归档验收包至长期可取证通道。

VII. 验证与测试矩阵

最小必测
- 同分布重复验收 k 次，验证 P31-30：decision 一致且 var(score) → 0；
- 回归修复场景验证 P31-31：score_new - score_old >= -tau_reg；
- 谱向用例：var( x ) ≈ ( ∫ S_xx(f) df ) 成立即 delta_psd <= tau_psd；
- 到达时两口径：发布 delta_form 并验证纳分口径对 score_case 的影响不超过设定上限。
边界与极端
- 小样本不确定性：缩小 T_obs 或减少用例数，检查 CI_score 宽度与决策稳定性；
- 高并发抖动：hb 下降与 bp 上升时，确认 r_tb 与 perf_norm 的权重不致误杀复现通过。
通过门与 SLO
- 硬门：delta_rep <= gate.rep、r_tb <= tau_tb、delta_psd <= tau_psd、eps_mass <= tau_mass；
- 软门：lower( CI_score ) >= tau_score、R_coef >= 1 - gate.rep。

VIII. 交叉引用与依赖

与第8章评分口径、权重与基准套绑定；与第9章审计与发布通道集成；与第5章 EnvLock、第6章 alpha,beta,seed 对齐；与第7章 PipelineCard/ParamCard 字段一致；跨域评审遵循第10章偏差预算与同等性检验。

IX. 风险、限制与开放问题

风险
U_w/ENBW 选择对 delta_psd 敏感；跨站点 c_ref 与 n_eff 估计误差可能放大 delta_form；权重设定不当造成 Simpson 悖论型误判。
限制
score 为线性合成，面对强非线性与门槛效应可能不足；小样本下 CI_score 的正态近似偏差显著。
开放问题
自适应权重与风险感知评分；基于分布匹配的非线性合成；T_arr 两口径的动态配额分配策略。

X. 交付件与版本管理

交付件
- RepReport 与 BenchReport（含用例级指标与差异分解）；
- ScoreSummary（score、CI_score、权重、门限、贡献拆解）；
- 发布包 ReleaseBundle（EnvLock、卡片、指纹、签名、审计链）；
- 对外公告摘要与第三方验证指南。
版本策略
- 变更 tau_score/gate.rep/tau_psd/tau_tb 属策略升级，需提升次要版本并回放历史基准；
- 基准套扩容或权重调整需更新基线 score 与公告影响评估；
- 所有验收包与发布包以 hash(·) 与 fingerprint 固化归档，支持长期可取证性。