目录 / 文档-技术白皮书 / 14-EFT.WP.Methods.Inference v1.0
I. 范围与目标
- 定义推理系统在锁定环境 EnvLock 下的最终验收标准、评分合成与公告发布流程;确保精度、校准、SLO、一致性与合规证据可复验、可追溯、可取证,覆盖离线验证到线上放量前的最后门限。
- 交付端到端工作流 Mx-41 → Mx-44,以及评分口径、置信界定与第三方复核要件;对接第6章在线/离线一致性、第7章不确定性与校准、第8章性能度量与 SLO、第11章跨域/跨设备证书 CertEq。
II. 术语与符号
- Gate:验收门结果布尔量;Gate = true 表示准入。
- 评分与权重:score = Σ w_k * s_k,Σ w_k = 1;s_k 为归一化子分数(见第8章)。
- 置信界定:CI_{1-delta}(m) = [ LCB_{1-delta}(m) , UCB_{1-delta}(m) ];delta 为显著性水平。
- 非劣检验基线:score_base(上版或对照 anchor 的分数);容忍度 tau_noninf。
- 统一门限向量:tau = { tau_acc, tau_cal, tau_slo, tau_cons, tau_dev, tau_cost }。
- 样本规模与分层:N_total,分层集合 H = {h_1,...,h_J};每层占比 pi_h 与最小样本 N_min(h)。
- 证据锚:anchor,fingerprint,signature,IPC/PC(见第9章);时基映射 ts = alpha + beta * tau_mono(见第3章)。
III. 公设与最小方程
- P41-81 验收-上线可移植公设
在 EnvLock、固定图与锁定 IPC/PC 下,若 Gate = true 且 CertEq 有效,则在同分布与受控偏移下上线期望风险不劣于基线:
R_exp^{online} <= R_exp^{base} + O( shift )。 - P41-82 可验证发布公设
发布包以 fingerprint 与 signature 绑定 artifacts/metrics/plans/logs;任一第三方在相同 anchor 与 inputs 下可重放得到统计等价的评分与门限结果。 - S42-81 评分合成
- score = Σ w_k * s_k;常见分量含 s_acc(精度)、s_cal(校准)、s_slo(时延/吞吐/稳定)、s_cons(离在线一致性)、s_dev(跨设备一致性)、s_cost(资源/成本)。
- 置信下界:score_LCB = score - z_{1-delta} * sqrt( Var(score) / N_total ) 或用 bootstrap 分位:score_LCB = quantile_{delta}( score^{*} )。
- S42-82 非劣与门限
- 非劣判定:score_LCB >= ( score_base - tau_noninf )。
- 门限合取:Gate = ( s_acc >= tau_acc ) AND ( s_cal >= tau_cal ) AND ( s_slo >= tau_slo ) AND ( s_cons >= tau_cons ) AND ( s_dev >= tau_dev ) AND ( s_cost >= tau_cost )。
- S42-83 校准置信与 ECE/MCE
以分桶 B 与权重 w_b 估计 ECE = Σ w_b * | acc_b - conf_b |;若采用温度缩放后 ECE_T,验收条件:ECE_T <= tau_cal,且 CI_{1-delta}(ECE_T) 上界不超过 tau_cal + eps。 - S42-84 一致性与回归控制
- 离在线差异:delta_offon = ( norm( y_hat_off - y_hat_on ) / norm( y_hat_off ) );验收需 delta_offon <= tau_cons(见第6章)。
- 跨设备差异:delta_dev = ( norm( y_hat_A - y_hat_B ) / norm( y_hat_A ) );需 delta_dev <= tau_dev 且持有有效 CertEq(见第11章)。
IV. 数据与清单口径
- 必备字段(增补第9章卡片):
- dataset_id, split_policy, sampling:H→{pi_h, N_min(h)};ts_window 与 alpha, beta;rng.seed, rng_family;artifact_fingerprint;driver/runtime_version。
- 度量清单与单位:ACC, AUC, NLL, ECE, MCE, TS.latency_{p95,p99}, TS.thrpt, TS.error, cost.per.req, power.avg。
- 基线对照:anchor_base, score_base, tau_noninf;门限向量 tau。
- 追溯与脱敏:
输入 hash(·) 与 fingerprint 路径;禁止暴露原始标识符;所有外部可披露统计必须通过 k-anon 或分位摘要。
V. 算法与实现绑定
- 原型(新增 I40-*)
- I40-60 make_acceptance_plan(spec:dict) -> Plan
- I40-61 run_acceptance(plan:Plan) -> AcceptanceReport
- I40-62 compose_score(metrics:dict, weights:dict, method:str) -> {score:float, score_LCB:float, var:float}
- I40-63 decide_gate(report:AcceptanceReport, tau:dict, noninf:dict) -> {Gate:boolean, reasons:list}
- I40-64 build_announcement(report:AcceptanceReport, templates:any) -> AnnBundle
- I40-65 notarize_and_archive(bundle:AnnBundle, anchors:list) -> ArchiveReceipt
- I40-66 third_party_verify(bundle:any, policy:dict) -> VerifyReport
- 判定伪代码(摘要)
- 计算 metrics 与分层聚合;对每项构建 CI_{1-delta}。
- score_pack = I40-62(metrics, w, method="bootstrap")。
- 非劣:ok_noninf = ( score_pack.score_LCB >= score_base - tau_noninf )。
- 门限:ok_tau = Π_k [ s_k >= tau_k ](逻辑与)。
- 证据:校验 CertEq、delta_offon、审计日志完整性。
- Gate = ok_noninf AND ok_tau AND evidence_complete;输出拒绝原因向量 reasons。
VI. 计量流程与运行图(Mx-41 → Mx-44)
- Mx-41 验收准备
锁定 EnvLock、冻结 IPC/PC 与 anchor;生成 Plan(I40-60),包含数据分层、阈值 tau、非劣对照 score_base、统计功效目标与 B 次 bootstrap。 - Mx-42 评分与置信构建
运行批评估与在线影子流;对 ACC/AUC/NLL/ECE/MCE/TS.*/cost.* 构建 CI_{1-delta};执行 I40-62 得到 score 与 score_LCB;形成 AcceptanceReport。 - Mx-43 门限判定与签署
调用 I40-63 给出 Gate 与 reasons;若失败,生成回退与补救建议(如再校准、窗口复刻、资源配额调整);通过后收集 CertEq、ConsistencyReport、DriftReport、AuditLog。 - Mx-44 公告包与归档
I40-64 生成 AnnBundle(执行摘要、关键图表、方法口径、限制与风险、SLO 声明、重放指南);I40-65 签名与归档,发布外部公告与第三方复核接口;可选 I40-66 启动第三方验证。
VII. 验证与测试矩阵
- 分层稳定性:对每个 h ∈ H 检验子分数 s_k(h) 与总体差异的显著性;若 LCB_{1-delta}(s_k(h) - s_k) < -eps,标注偏斜风险。
- 非劣功效:设定 delta 与 tau_noninf,用样本量规划保证 power >= 1 - beta_err;不足则扩样或延长观测窗口。
- 校准复核:对 ECE/MCE/NLL 同时构建 CI_{1-delta},并在温度缩放前后比较 Delta_ECE, Delta_NLL。
- 一致性联检:联合检查 delta_offon(第6章)与 delta_dev/CertEq(第11章);任一超阈则 Gate = false。
- SLO 压力门:以加载曲线验证 TS.latency_{p99}、TS.thrpt 与 TS.error 在承诺负载下同时达标。
- 重放幂等:用相同 anchor、rng.seed、inputs 重跑,差异必须在统计噪声内。
- 成本合规:cost.per.req 与 power.avg 的上界 tau_cost 需与 SLO 同时满足,不得以牺牲稳定性换取成本。
VIII. 交叉引用与依赖
评分分量与权重:见第8章;TS.* 与告警/回退:见第10章;离线/在线一致性:见第6章;校准与不确定性:见第7章;跨设备证书:见第11章;卡片与指纹:见第9章;时基与谱口径:见第3章与《Core.Metrology》。IX. 风险、限制与开放问题
- 非劣容忍度 tau_noninf 的业务主观性可能带来放量风险;建议同时披露保守的 score_LCB 与 tau。
- 样本漂移与数据依赖导致 CI_{1-delta} 低估;应启用分层 bootstrap 与时间块重采样。
- 第三方环境与内核差异可能破坏重放等价;需在公告包中提供参考容差与 CertEq 范围。
- 组合分数的可解释性有限;建议在公告包内同时发布分量曲线与权重敏感性分析。
X. 交付件与版本管理
- 交付件
- AcceptancePlan.yaml(Mx-41 输出,含 tau、score_base、分层与功效目标)。
- AcceptanceReport.md(Mx-42 输出,度量、CI_{1-delta}、score/score_LCB、拒绝原因)。
- SLO.Proof.json(关键 TS.* 证据与采样窗口)。
- CalibrationReport.json(ECE/MCE/NLL 与校准方法)。
- ConsistencyReport.json(含 delta_offon,见第6章)。
- CertEq.pdf(跨设备等价证书,见第11章)。
- AnnBundle.zip(公告包、可重放脚本、fingerprint/signature、方法与限制)。
- ArchiveReceipt.txt(归档签名与存证位置)。
- 版本策略
- 任一门限 tau、权重 w_k 或基线 score_base 变更,必须生成新 AcceptancePlan 并重新走 Mx-41 → Mx-44。
- 公告包采用语义化版本,major.minor.patch;minor 变更不得降低 score_LCB 或突破任何 tau。
- 变更均回写 PC.meta.parent_fingerprint 并更新 CHANGELOG(见附录C)。
版权与许可(CC BY 4.0)
版权声明:除另有说明外,《能量丝理论》(含文本、图表、插图、符号与公式)的著作权由作者(“屠广林”先生)享有。
许可方式:本作品采用 Creative Commons 署名 4.0 国际许可协议(CC BY 4.0)进行许可;在注明作者与来源的前提下,允许为商业或非商业目的进行复制、转载、节选、改编与再分发。
署名格式(建议):作者:“屠广林”;作品:《能量丝理论》;来源:energyfilament.org;许可证:CC BY 4.0。
首次发布: 2025-11-11|当前版本:v5.1
协议链接:https://creativecommons.org/licenses/by/4.0/