目录 / 文档-技术白皮书 / 12-EFT.WP.Methods.Repro v1.0
I. 范围与目标
- 建立统一的复现验收工作流与评分发布口径,使候选实现在固定 EnvLock、seed 与时基映射 ts = alpha + beta * tau_mono 下,依据基准套与门限完成自动化判定与分层发布。
- 目标产出包括:RepReport、BenchReport、综合分 score 及其置信区间、审计签名与发布包;并保证两口径到达时 T_arr 的差异量 delta_form 与谱向一致性均纳入门限判定。
II. 术语与符号
- score:复现综合分,范围 [0,1],越大越好。
- tau_score:综合分门限;CI_score:score 的置信区间;z:置信系数对应分位。
- r_tb:时基对齐残差度量;tau_tb:其门限;delta_psd:谱差异归一量;tau_psd:其门限。
- gate.rep:结果差异硬门;eps_mass、eps_norm:守恒与归一化残差;tau_mass:守恒门限。
- case_weight:基准用例权重;w_rep、w_psd、w_tb、w_perf、w_cons:维度权重,满足 w_rep + w_psd + w_tb + w_perf + w_cons = 1。
- 渠道:canary、stable、LTS;发布包以 hash(·) 与 fingerprint 标识。
III. 公设与最小方程
- P31-30 验收稳定性公设
在固定 EnvLock、seed、alpha,beta 与数据 fingerprint 的条件下,多次验收的判定结果在门限公差内一致;形式化为
Pr( decision_run1 = decision_run2 ) → 1 当样本数量与观测窗充分时。 - P31-31 评分单调不劣公设
若更改仅在误差修复,不改变口径与数据分布,则 score_new >= score_old - tau_reg,其中 tau_reg 为回归公差。 - S32-39 用例级评分
score_case = w_rep*( 1 - delta_rep ) + w_psd*( 1 - delta_psd ) + w_tb*( 1 - clip( r_tb / tau_tb , 0 , 1 ) ) + w_perf*perf_norm + w_cons*( 1 - clip( eps_mass / tau_mass , 0 , 1 ) )。 - S32-40 基准套聚合
score = ( Σ ( case_weight * score_case ) ) / ( Σ case_weight );R_coef = 1 - delta_rep 同步报告。 - S32-41 置信区间与通过门
- sigma_hat = std( { score_case } );CI_score = [ score - z * ( sigma_hat / sqrt(N) ) , score + z * ( sigma_hat / sqrt(N) ) ];
- 验收条件为
delta_rep <= gate.rep 且 delta_psd <= tau_psd 且 r_tb <= tau_tb 且 lower( CI_score ) >= tau_score。
- S32-42 到达时两口径一致性
同时计算 T_arr = ( 1 / c_ref ) * ( ∫ n_eff d ell ) 与 T_arr = ( ∫ ( n_eff / c_ref ) d ell ),报告 delta_form = | T_arr(form1) - T_arr(form2) | / max( |T_arr(form1)| , |T_arr(form2)| ) 并纳入 score_case 的 w_cons 分量。
IV. 数据与清单口径
- 验收包最小字段
EnvLock、PipelineCard、ParamCard、数据指纹 fingerprint、产物 hash(·)、基准套版本与用例清单、U_w、ENBW、gamma(ell) 与测度 d ell(如涉及路径积分)、alpha,beta 与拟合 fit、seed 与生成器族。 - 口径一致性
明示所有单位并执行 check_dim(expr);涉及 T_arr、S_xx(f) 时,发布窗函数与观测窗 T_obs,并固定 c_ref、n_eff 的适用域。 - 审计与签名
按第9章审计轨格式,逐事件链接 H_k = hash( H_{k-1} || event ) 并附 sig_k;验收包附公开验证钥指针 verifier.pk_ref。
V. 算法与实现绑定
- I30-3 run_benchmark_suite(card:dict) -> BenchReport
输入 PipelineCard/ParamCard 与基准套;输出逐用例的 delta_rep、delta_psd、r_tb、eps_mass、perf_norm、R_coef 与原始观测摘要。 - I30-4 verify_reproduction(golden:any, candidate:any, metrics:dict) -> RepReport
以固定 EnvLock、seed、alpha,beta 对齐后,对每用例产出是否过门与差异分解。 - I30-22 compose_score(bench:BenchReport, weights:dict) -> {score:float, CI_score:list, details:any}
实现 S32-39/40/41,并返回 score、CI_score 与逐维度贡献。 - I30-23 prepare_release_bundle(rep:RepReport, score:any, audit:any) -> ReleaseBundle
聚合验收包、审计轨与对外摘要;生成 fingerprint 与可验证元信息。 - I30-24 sign_and_publish(bundle:any, channel:str) -> PublishReport
将包签名后推送至 canary/stable/LTS,记录提交指纹与可回滚锚点。
VI. 计量流程与运行图
- Mx-31 precheck-and-freeze
- 校验 EnvLock 与数据 fingerprint;
- 重放时基拟合 alpha,beta 并确认 fit 达标;
- 固定 seed,锁定观测窗 T_obs 与 U_w/ENBW。
- Mx-32 run-and-measure
- 调用 I30-3 与 I30-4 生成 BenchReport/RepReport;
- 计算 score 与 CI_score(I30-22);
- 输出用例级与聚合级的过门判定。
- Mx-33 decide-and-route
- 若满足 S32-41,生成 Accept 决议;
- 若 lower( CI_score ) < tau_score 但硬门均过,则标记 Conditional,进入加样或延长观测窗;
- 否则 Reject,生成回退建议并对接第11章回退剧本。
- Mx-34 sign-and-release
- 组装与签名发布包(I30-23/24),选择 canary/stable/LTS;
- 在第9章监控轨上注册运行期 SLO 与复现门联动告警;
- 归档验收包至长期可取证通道。
VII. 验证与测试矩阵
- 最小必测
- 同分布重复验收 k 次,验证 P31-30:decision 一致且 var(score) → 0;
- 回归修复场景验证 P31-31:score_new - score_old >= -tau_reg;
- 谱向用例:var( x ) ≈ ( ∫ S_xx(f) df ) 成立即 delta_psd <= tau_psd;
- 到达时两口径:发布 delta_form 并验证纳分口径对 score_case 的影响不超过设定上限。
- 边界与极端
- 小样本不确定性:缩小 T_obs 或减少用例数,检查 CI_score 宽度与决策稳定性;
- 高并发抖动:hb 下降与 bp 上升时,确认 r_tb 与 perf_norm 的权重不致误杀复现通过。
- 通过门与 SLO
- 硬门:delta_rep <= gate.rep、r_tb <= tau_tb、delta_psd <= tau_psd、eps_mass <= tau_mass;
- 软门:lower( CI_score ) >= tau_score、R_coef >= 1 - gate.rep。
VIII. 交叉引用与依赖
与第8章评分口径、权重与基准套绑定;与第9章审计与发布通道集成;与第5章 EnvLock、第6章 alpha,beta,seed 对齐;与第7章 PipelineCard/ParamCard 字段一致;跨域评审遵循第10章偏差预算与同等性检验。IX. 风险、限制与开放问题
- 风险
U_w/ENBW 选择对 delta_psd 敏感;跨站点 c_ref 与 n_eff 估计误差可能放大 delta_form;权重设定不当造成 Simpson 悖论型误判。 - 限制
score 为线性合成,面对强非线性与门槛效应可能不足;小样本下 CI_score 的正态近似偏差显著。 - 开放问题
自适应权重与风险感知评分;基于分布匹配的非线性合成;T_arr 两口径的动态配额分配策略。
X. 交付件与版本管理
- 交付件
- RepReport 与 BenchReport(含用例级指标与差异分解);
- ScoreSummary(score、CI_score、权重、门限、贡献拆解);
- 发布包 ReleaseBundle(EnvLock、卡片、指纹、签名、审计链);
- 对外公告摘要与第三方验证指南。
- 版本策略
- 变更 tau_score/gate.rep/tau_psd/tau_tb 属策略升级,需提升次要版本并回放历史基准;
- 基准套扩容或权重调整需更新基线 score 与公告影响评估;
- 所有验收包与发布包以 hash(·) 与 fingerprint 固化归档,支持长期可取证性。
版权与许可(CC BY 4.0)
版权声明:除另有说明外,《能量丝理论》(含文本、图表、插图、符号与公式)的著作权由作者(“屠广林”先生)享有。
许可方式:本作品采用 Creative Commons 署名 4.0 国际许可协议(CC BY 4.0)进行许可;在注明作者与来源的前提下,允许为商业或非商业目的进行复制、转载、节选、改编与再分发。
署名格式(建议):作者:“屠广林”;作品:《能量丝理论》;来源:energyfilament.org;许可证:CC BY 4.0。
首次发布: 2025-11-11|当前版本:v5.1
协议链接:https://creativecommons.org/licenses/by/4.0/