目录文档-技术白皮书14-EFT.WP.Methods.Inference v1.0

第12章 验收与评分发布


I. 范围与目标


II. 术语与符号


III. 公设与最小方程

  1. P41-81 验收-上线可移植公设
    在 EnvLock、固定图与锁定 IPC/PC 下,若 Gate = true 且 CertEq 有效,则在同分布与受控偏移下上线期望风险不劣于基线:
    R_exp^{online} <= R_exp^{base} + O( shift )。
  2. P41-82 可验证发布公设
    发布包以 fingerprint 与 signature 绑定 artifacts/metrics/plans/logs;任一第三方在相同 anchor 与 inputs 下可重放得到统计等价的评分与门限结果。
  3. S42-81 评分合成
    • score = Σ w_k * s_k;常见分量含 s_acc(精度)、s_cal(校准)、s_slo(时延/吞吐/稳定)、s_cons(离在线一致性)、s_dev(跨设备一致性)、s_cost(资源/成本)。
    • 置信下界:score_LCB = score - z_{1-delta} * sqrt( Var(score) / N_total ) 或用 bootstrap 分位:score_LCB = quantile_{delta}( score^{*} )。
  4. S42-82 非劣与门限
    • 非劣判定:score_LCB >= ( score_base - tau_noninf )。
    • 门限合取:Gate = ( s_acc >= tau_acc ) AND ( s_cal >= tau_cal ) AND ( s_slo >= tau_slo ) AND ( s_cons >= tau_cons ) AND ( s_dev >= tau_dev ) AND ( s_cost >= tau_cost )。
  5. S42-83 校准置信与 ECE/MCE
    以分桶 B 与权重 w_b 估计 ECE = Σ w_b * | acc_b - conf_b |;若采用温度缩放后 ECE_T,验收条件:ECE_T <= tau_cal,且 CI_{1-delta}(ECE_T) 上界不超过 tau_cal + eps。
  6. S42-84 一致性与回归控制
    • 离在线差异:delta_offon = ( norm( y_hat_off - y_hat_on ) / norm( y_hat_off ) );验收需 delta_offon <= tau_cons(见第6章)。
    • 跨设备差异:delta_dev = ( norm( y_hat_A - y_hat_B ) / norm( y_hat_A ) );需 delta_dev <= tau_dev 且持有有效 CertEq(见第11章)。

IV. 数据与清单口径

  1. 必备字段(增补第9章卡片):
    • dataset_id, split_policy, sampling:H→{pi_h, N_min(h)};ts_window 与 alpha, beta;rng.seed, rng_family;artifact_fingerprint;driver/runtime_version。
    • 度量清单与单位:ACC, AUC, NLL, ECE, MCE, TS.latency_{p95,p99}, TS.thrpt, TS.error, cost.per.req, power.avg。
    • 基线对照:anchor_base, score_base, tau_noninf;门限向量 tau。
  2. 追溯与脱敏:
    输入 hash(·) 与 fingerprint 路径;禁止暴露原始标识符;所有外部可披露统计必须通过 k-anon 或分位摘要。

V. 算法与实现绑定

  1. 原型(新增 I40-*)
    • I40-60 make_acceptance_plan(spec:dict) -> Plan
    • I40-61 run_acceptance(plan:Plan) -> AcceptanceReport
    • I40-62 compose_score(metrics:dict, weights:dict, method:str) -> {score:float, score_LCB:float, var:float}
    • I40-63 decide_gate(report:AcceptanceReport, tau:dict, noninf:dict) -> {Gate:boolean, reasons:list}
    • I40-64 build_announcement(report:AcceptanceReport, templates:any) -> AnnBundle
    • I40-65 notarize_and_archive(bundle:AnnBundle, anchors:list) -> ArchiveReceipt
    • I40-66 third_party_verify(bundle:any, policy:dict) -> VerifyReport
  2. 判定伪代码(摘要)
    • 计算 metrics 与分层聚合;对每项构建 CI_{1-delta}。
    • score_pack = I40-62(metrics, w, method="bootstrap")。
    • 非劣:ok_noninf = ( score_pack.score_LCB >= score_base - tau_noninf )。
    • 门限:ok_tau = Π_k [ s_k >= tau_k ](逻辑与)。
    • 证据:校验 CertEq、delta_offon、审计日志完整性。
    • Gate = ok_noninf AND ok_tau AND evidence_complete;输出拒绝原因向量 reasons。

VI. 计量流程与运行图(Mx-41 → Mx-44)


VII. 验证与测试矩阵


VIII. 交叉引用与依赖

评分分量与权重:见第8章;TS.* 与告警/回退:见第10章;离线/在线一致性:见第6章;校准与不确定性:见第7章;跨设备证书:见第11章;卡片与指纹:见第9章;时基与谱口径:见第3章与《Core.Metrology》。

IX. 风险、限制与开放问题


X. 交付件与版本管理

  1. 交付件
    • AcceptancePlan.yaml(Mx-41 输出,含 tau、score_base、分层与功效目标)。
    • AcceptanceReport.md(Mx-42 输出,度量、CI_{1-delta}、score/score_LCB、拒绝原因)。
    • SLO.Proof.json(关键 TS.* 证据与采样窗口)。
    • CalibrationReport.json(ECE/MCE/NLL 与校准方法)。
    • ConsistencyReport.json(含 delta_offon,见第6章)。
    • CertEq.pdf(跨设备等价证书,见第11章)。
    • AnnBundle.zip(公告包、可重放脚本、fingerprint/signature、方法与限制)。
    • ArchiveReceipt.txt(归档签名与存证位置)。
  2. 版本策略
    • 任一门限 tau、权重 w_k 或基线 score_base 变更,必须生成新 AcceptancePlan 并重新走 Mx-41 → Mx-44。
    • 公告包采用语义化版本,major.minor.patch;minor 变更不得降低 score_LCB 或突破任何 tau。
    • 变更均回写 PC.meta.parent_fingerprint 并更新 CHANGELOG(见附录C)。

版权与许可(CC BY 4.0)

版权声明:除另有说明外,《能量丝理论》(含文本、图表、插图、符号与公式)的著作权由作者(“屠广林”先生)享有。
许可方式:本作品采用 Creative Commons 署名 4.0 国际许可协议(CC BY 4.0)进行许可;在注明作者与来源的前提下,允许为商业或非商业目的进行复制、转载、节选、改编与再分发。
署名格式(建议):作者:“屠广林”;作品:《能量丝理论》;来源:energyfilament.org;许可证:CC BY 4.0。

首次发布: 2025-11-11|当前版本:v5.1
协议链接:https://creativecommons.org/licenses/by/4.0/