14-EFT.WP.Methods.Inference v1.0 | 第12章验收与评分发布 | 能量丝理论

第12章验收与评分发布

I. 范围与目标

定义推理系统在锁定环境 EnvLock 下的最终验收标准、评分合成与公告发布流程；确保精度、校准、SLO、一致性与合规证据可复验、可追溯、可取证，覆盖离线验证到线上放量前的最后门限。
交付端到端工作流 Mx-41 → Mx-44，以及评分口径、置信界定与第三方复核要件；对接第6章在线/离线一致性、第7章不确定性与校准、第8章性能度量与 SLO、第11章跨域/跨设备证书 CertEq。

II. 术语与符号

Gate：验收门结果布尔量；Gate = true 表示准入。
评分与权重：score = Σ w_k * s_k，Σ w_k = 1；s_k 为归一化子分数（见第8章）。
置信界定：CI_{1-delta}(m) = [ LCB_{1-delta}(m) , UCB_{1-delta}(m) ]；delta 为显著性水平。
非劣检验基线：score_base（上版或对照 anchor 的分数）；容忍度 tau_noninf。
统一门限向量：tau = { tau_acc, tau_cal, tau_slo, tau_cons, tau_dev, tau_cost }。
样本规模与分层：N_total，分层集合 H = {h_1,...,h_J}；每层占比 pi_h 与最小样本 N_min(h)。
证据锚：anchor，fingerprint，signature，IPC/PC（见第9章）；时基映射 ts = alpha + beta * tau_mono（见第3章）。

III. 公设与最小方程

P41-81 验收-上线可移植公设
在 EnvLock、固定图与锁定 IPC/PC 下，若 Gate = true 且 CertEq 有效，则在同分布与受控偏移下上线期望风险不劣于基线：
R_exp^{online} <= R_exp^{base} + O( shift )。
P41-82 可验证发布公设
发布包以 fingerprint 与 signature 绑定 artifacts/metrics/plans/logs；任一第三方在相同 anchor 与 inputs 下可重放得到统计等价的评分与门限结果。
S42-81 评分合成
- score = Σ w_k * s_k；常见分量含 s_acc（精度）、s_cal（校准）、s_slo（时延/吞吐/稳定）、s_cons（离在线一致性）、s_dev（跨设备一致性）、s_cost（资源/成本）。
- 置信下界：score_LCB = score - z_{1-delta} * sqrt( Var(score) / N_total ) 或用 bootstrap 分位：score_LCB = quantile_{delta}( score^{*} )。
S42-82 非劣与门限
- 非劣判定：score_LCB >= ( score_base - tau_noninf )。
- 门限合取：Gate = ( s_acc >= tau_acc ) AND ( s_cal >= tau_cal ) AND ( s_slo >= tau_slo ) AND ( s_cons >= tau_cons ) AND ( s_dev >= tau_dev ) AND ( s_cost >= tau_cost )。
S42-83 校准置信与 ECE/MCE
以分桶 B 与权重 w_b 估计 ECE = Σ w_b * | acc_b - conf_b |；若采用温度缩放后 ECE_T，验收条件：ECE_T <= tau_cal，且 CI_{1-delta}(ECE_T) 上界不超过 tau_cal + eps。
S42-84 一致性与回归控制
- 离在线差异：delta_offon = ( norm( y_hat_off - y_hat_on ) / norm( y_hat_off ) )；验收需 delta_offon <= tau_cons（见第6章）。
- 跨设备差异：delta_dev = ( norm( y_hat_A - y_hat_B ) / norm( y_hat_A ) )；需 delta_dev <= tau_dev 且持有有效 CertEq（见第11章）。

IV. 数据与清单口径

必备字段（增补第9章卡片）：
- dataset_id, split_policy, sampling:H→{pi_h, N_min(h)}；ts_window 与 alpha, beta；rng.seed, rng_family；artifact_fingerprint；driver/runtime_version。
- 度量清单与单位：ACC, AUC, NLL, ECE, MCE, TS.latency_{p95,p99}, TS.thrpt, TS.error, cost.per.req, power.avg。
- 基线对照：anchor_base, score_base, tau_noninf；门限向量 tau。
追溯与脱敏：
输入 hash(·) 与 fingerprint 路径；禁止暴露原始标识符；所有外部可披露统计必须通过 k-anon 或分位摘要。

V. 算法与实现绑定

原型（新增 I40-*）
- I40-60 make_acceptance_plan(spec:dict) -> Plan
- I40-61 run_acceptance(plan:Plan) -> AcceptanceReport
- I40-62 compose_score(metrics:dict, weights:dict, method:str) -> {score:float, score_LCB:float, var:float}
- I40-63 decide_gate(report:AcceptanceReport, tau:dict, noninf:dict) -> {Gate:boolean, reasons:list}
- I40-64 build_announcement(report:AcceptanceReport, templates:any) -> AnnBundle
- I40-65 notarize_and_archive(bundle:AnnBundle, anchors:list) -> ArchiveReceipt
- I40-66 third_party_verify(bundle:any, policy:dict) -> VerifyReport
判定伪代码（摘要）
- 计算 metrics 与分层聚合；对每项构建 CI_{1-delta}。
- score_pack = I40-62(metrics, w, method="bootstrap")。
- 非劣：ok_noninf = ( score_pack.score_LCB >= score_base - tau_noninf )。
- 门限：ok_tau = Π_k [ s_k >= tau_k ]（逻辑与）。
- 证据：校验 CertEq、delta_offon、审计日志完整性。
- Gate = ok_noninf AND ok_tau AND evidence_complete；输出拒绝原因向量 reasons。

VI. 计量流程与运行图（Mx-41 → Mx-44）

Mx-41 验收准备
锁定 EnvLock、冻结 IPC/PC 与 anchor；生成 Plan（I40-60），包含数据分层、阈值 tau、非劣对照 score_base、统计功效目标与 B 次 bootstrap。
Mx-42 评分与置信构建
运行批评估与在线影子流；对 ACC/AUC/NLL/ECE/MCE/TS.*/cost.* 构建 CI_{1-delta}；执行 I40-62 得到 score 与 score_LCB；形成 AcceptanceReport。
Mx-43 门限判定与签署
调用 I40-63 给出 Gate 与 reasons；若失败，生成回退与补救建议（如再校准、窗口复刻、资源配额调整）；通过后收集 CertEq、ConsistencyReport、DriftReport、AuditLog。
Mx-44 公告包与归档
I40-64 生成 AnnBundle（执行摘要、关键图表、方法口径、限制与风险、SLO 声明、重放指南）；I40-65 签名与归档，发布外部公告与第三方复核接口；可选 I40-66 启动第三方验证。

VII. 验证与测试矩阵

分层稳定性：对每个 h ∈ H 检验子分数 s_k(h) 与总体差异的显著性；若 LCB_{1-delta}(s_k(h) - s_k) < -eps，标注偏斜风险。
非劣功效：设定 delta 与 tau_noninf，用样本量规划保证 power >= 1 - beta_err；不足则扩样或延长观测窗口。
校准复核：对 ECE/MCE/NLL 同时构建 CI_{1-delta}，并在温度缩放前后比较 Delta_ECE, Delta_NLL。
一致性联检：联合检查 delta_offon（第6章）与 delta_dev/CertEq（第11章）；任一超阈则 Gate = false。
SLO 压力门：以加载曲线验证 TS.latency_{p99}、TS.thrpt 与 TS.error 在承诺负载下同时达标。
重放幂等：用相同 anchor、rng.seed、inputs 重跑，差异必须在统计噪声内。
成本合规：cost.per.req 与 power.avg 的上界 tau_cost 需与 SLO 同时满足，不得以牺牲稳定性换取成本。

VIII. 交叉引用与依赖

评分分量与权重：见第8章；TS.* 与告警/回退：见第10章；离线/在线一致性：见第6章；校准与不确定性：见第7章；跨设备证书：见第11章；卡片与指纹：见第9章；时基与谱口径：见第3章与《Core.Metrology》。

IX. 风险、限制与开放问题

非劣容忍度 tau_noninf 的业务主观性可能带来放量风险；建议同时披露保守的 score_LCB 与 tau。
样本漂移与数据依赖导致 CI_{1-delta} 低估；应启用分层 bootstrap 与时间块重采样。
第三方环境与内核差异可能破坏重放等价；需在公告包中提供参考容差与 CertEq 范围。
组合分数的可解释性有限；建议在公告包内同时发布分量曲线与权重敏感性分析。

X. 交付件与版本管理

交付件
- AcceptancePlan.yaml（Mx-41 输出，含 tau、score_base、分层与功效目标）。
- AcceptanceReport.md（Mx-42 输出，度量、CI_{1-delta}、score/score_LCB、拒绝原因）。
- SLO.Proof.json（关键 TS.* 证据与采样窗口）。
- CalibrationReport.json（ECE/MCE/NLL 与校准方法）。
- ConsistencyReport.json（含 delta_offon，见第6章）。
- CertEq.pdf（跨设备等价证书，见第11章）。
- AnnBundle.zip（公告包、可重放脚本、fingerprint/signature、方法与限制）。
- ArchiveReceipt.txt（归档签名与存证位置）。
版本策略
- 任一门限 tau、权重 w_k 或基线 score_base 变更，必须生成新 AcceptancePlan 并重新走 Mx-41 → Mx-44。
- 公告包采用语义化版本，major.minor.patch；minor 变更不得降低 score_LCB 或突破任何 tau。
- 变更均回写 PC.meta.parent_fingerprint 并更新 CHANGELOG（见附录C）。