目录 / 文档-技术白皮书 / 15-EFT.WP.Methods.Falsification v1.0
I. 范围与目标
- 本章规定多站点、多硬件、多算力后端与多数据域下的证伪方法、度量与通过门,覆盖站点差异 site_id、设备差异 device_id、数值与量化迁移、软件栈与时基对齐 ts = alpha + beta * tau_mono、运输与对照实验、异常处置与报告联动。目标是在 EnvLock 约束下,对候选系统的跨域等效性与稳健性给出可证伪结论。
- 合成偏差口径以 delta_dev、delta_quant、delta_num、delta_domain 表示;合规联动见第7章(错误控制)、第8章(不确定性)、第10章(审计轨)与第9章(在线守门)。
II. 术语与符号
- 站点与设备
site_id ∈ S,device_id ∈ D,backend ∈ {CPU, CUDA, ROCm, NPU},precision ∈ {fp32, bf16, fp16, int8, int4},qformat = {scheme, scale, zero_point},driver_ver,firmware_ver,kernel_ver。 - 迁移与差异
- 性能差异:delta_perf = ( score_ref - score_cand );实时差异:delta_rt = ( TS.latency_cand - TS.latency_ref )。
- 量化迁移差异:delta_quant = ( score_fp32 - score_int8 )。
- 数值漂移:delta_num = ( || y_fp32 - y_hw ||_p / max( ||y_fp32||_p, eps ) );eps 为无量纲稳定项。
- 域迁移差异:delta_domain = ( score_Da - score_Db )。
- 复合设备差异:delta_dev = w_perf * delta_perf + w_num * delta_num + w_rt * delta_rt,Σ w_* = 1。
- 元分析与等效
- 站点权重:w_i = ( 1 / var_i );合成效应:theta_hat = ( Σ w_i * theta_i ) / ( Σ w_i );异质性:Q = Σ w_i * ( theta_i - theta_hat )^2,I2 = max( ( Q - (k - 1) ) / Q, 0 )。
- 等效性边界:delta_equiv(见第7章),采用 TOST 断言 | theta | < delta_equiv。
- 数值与量纲
ulp(x),epsilon_fp(机内精度),check_dim(expr) 保证量纲守恒;log/exp/ln 自变量无量纲。
III. 公设与最小方程
- P51-22(跨域可等效公设)
存在 delta_equiv > 0,使得对任意 (site_id, device_id),主要指标差异 theta 满足 | theta | < delta_equiv 则视为等效。 - P51-23(数值确定性包络公设)
在锁定 EnvLock、rng.seed 与 canon_json(·) 序列化下,多后端输出应落在数值包络:delta_num ≤ tau_num;超界触发 E_DET_DRIFT_EXCEEDED。 - P51-24(量化迁移可证伪公设)
量化配置 qformat 的变更应保持 delta_quant ≤ tau_quant;超界视为迁移退化。 - P51-25(运输可归因公设)
通过运输/对照实验,站点效应可分解为可测可控项,允许以差分口径证伪不可接受的站点偏移。 - S52-51(跨设备等效性检验,TOST)
记 theta = ( score_ref - score_hw ),若同时满足 ( t_lower > t_alpha ) ∧ ( t_upper > t_alpha ),等价于 | theta | < delta_equiv,则接受等效;否则证伪。 - S52-52(站点异质性分解)
Var_total = Var_within + Var_between,其中 Var_between = max( ( Q - (k - 1) ) / ( Σ w_i - ( Σ w_i^2 / Σ w_i ) ), 0 );若 I2 > tau_I2,判定存在显著站点异质性,需单站点证伪与修复。 - S52-53(数值漂移预算)
delta_num = ( || y_ref - y_hw ||_∞ / max( ||y_ref||_∞, eps ) ),要求 delta_num ≤ tau_num;并且 max_ulp = max_i ulp( y_ref[i], y_hw[i] ) ≤ tau_ulp。 - S52-54(量化迁移风险)
risk_quant = P( delta_quant > tau_quant | D ),门为 risk_quant ≤ beta_quant;若 power ≥ power_min 且风险超界,则证伪量化方案。 - S52-55(域迁移守门)
score_guard = min_{domain ∈ {Da, Db, ...}} score_domain,发布门:score_guard ≥ tau_accept 且 FDR ≤ q_star,见第7章。 - S52-56(运输实验差分)
设基线前后两期 pre/post,站点 A/B,则 DiD = ( y_B_post - y_B_pre ) - ( y_A_post - y_A_pre );若 | DiD | ≥ tau_transport,证伪“站点无效应”的断言。
IV. 数据与清单口径
- 站点元数据 SiteCard
{site_id, geo, power/thermal, network.qos, storage.io, ACL, ts_calib:{alpha, beta}, time_source, compliance.regs}。 - 设备元数据 DeviceCard
{device_id, backend, precision, qformat, compute_cap, driver_ver, firmware_ver, kernel_ver, blas_dnn_ver, rng_family}。 - 工件与指纹
- Graph.sig,ParamCard.sig,InferPipelineCard.sig,anchor,hash(·),fingerprint,EnvLock(见第10章)。
- 样本切片:golden_set_hash、boundary_set_hash、ood_set_hash、adv_set_hash(epsilon)(见第4章)。
- 记录格式
每次评估记录 {site_id, device_id, ts, rng.seed, data_shard, score, TS.latency, TS.thrpt, y_ref_hash, y_hw_hash, delta_num, delta_quant},以 canon_json(·) 固化并入 AuditTrail。
V. 算法与实现绑定
- 新增实现绑定 I50-*
- I50-41 site_stratified_eval(runtime:any, tests:any, sites:list) -> {per_site:table, theta_i:list}
- I50-42 device_sweep(runtime:any, devices:list, precision:list) -> SweepReport
- I50-43 quant_migration_test(model:any, qformat:dict, data:any) -> {delta_quant:float, risk_quant:float}
- I50-44 numeric_drift_probe(runtime:any, x:any, ref_backend:str, cand_backend:str) -> {delta_num:float, max_ulp:float}
- I50-45 transport_experiment(plan:dict) -> {DiD:float, ci:tuple}
- I50-46 equivalence_meta_analysis(thetas:list, vars:list) -> {theta_hat:float, I2:float}
- 异常与契约
E_SITE_HETEROGENEITY(I2 > tau_I2),E_QUANT_MISMATCH(delta_quant > tau_quant),E_DET_DRIFT_EXCEEDED(delta_num > tau_num),E_TIMEBASE_MISALIGNED(未满足 ts = alpha + beta * tau_mono),E_ENV_MISMATCH(EnvLock 不一致)。 - 幂等与重放
同一 {anchor, SiteCard, DeviceCard, golden_set_hash, rng.seed} 下 site_stratified_eval 结果幂等;偏离进入 AuditTrail(见第10章)。
VI. 计量流程与运行图
- Mx-80 站点/设备编目
- 采集 SiteCard 与 DeviceCard,校验 EnvLock,对齐时基参数 {alpha, beta}。
- 构建评估矩阵 sites × devices × precision × domains。
- Mx-81 数值与量化探针
- 以 I50-44 对关键用例运行 ref_backend → cand_backend,产出 delta_num 与 max_ulp。
- 以 I50-43 对目标 qformat 评估 delta_quant 与 risk_quant。
- Mx-82 跨域等效性与元分析
- 执行 I50-41/42,得到每站点效应 theta_i 与方差 var_i。
- 以 I50-46 计算 theta_hat、I2,并以 S52-51/52 判定等效与异质性。
- Mx-83 运输/对照实验
- 按计划将相同变更在 A/B 站点同期部署,I50-45 计算 DiD 与区间。
- 若 | DiD | ≥ tau_transport,触发回退与修复。
- Mx-84 守门与归档
将 delta_dev、delta_quant、delta_num、I2、DiD 与第7章门控合成,调用 gate_release;证据落 Evidence.bundle 并签名(见第10章)。
VII. 验证与测试矩阵
- 数值稳定与确定性
- ref_backend = fp32_cpu,cand_backend ∈ {CUDA, ROCm, NPU},测 delta_num 与 max_ulp;门:delta_num ≤ tau_num,max_ulp ≤ tau_ulp。
- 形变关系 MR_k 上重放(见第5章),验证包络不扩大。
- 量化迁移
- fp32 → int8 与 bf16 → int8 双路径评估,门:delta_quant ≤ tau_quant,risk_quant ≤ beta_quant。
- 边界样本与 OOD(见第4章)上验证 score_guard ≥ tau_accept。
- 站点等效与异质性
- 至少 k ≥ 3 站点,计算 theta_i、theta_hat、I2;门:| theta_hat | < delta_equiv 且 I2 ≤ tau_I2。
- 若 I2 超界,进入单站点证伪与根因定位。
- 运输/对照
以 DiD 检验“站点无效应”,门:| DiD | < tau_transport;否则回退。 - 实时与吞吐
TS.latency、TS.thrpt 在各设备上满足 SLO_rt;delta_rt 纳入 delta_dev 计算。
VIII. 交叉引用与依赖
与第7章共享 FDR/q_star/TOST/SPRT;与第8章共享 ECE/MCE/NLL 与不确定性传播;与第9章共享 GateDecision ∈ {pass, hold, block} 与在线一致性 delta_offon;与第10章共享 EnvLock、AuditTrail、Evidence.bundle。IX. 风险、限制与开放问题
- 风险与限制
跨后端内核实现差异(blas/dnn)导致隐式数值漂移;量化校准样本不足造成 delta_quant 低估;站点网络与热噪声干扰实时指标;时基对齐失配引入伪差异。 - 开放问题
在线 alpha-spending 与跨站点元分析的联合最优;tau_num/tau_ulp 的任务自适应设定;低比特量化(int4)在 OOD 场景的保守门设计。
X. 交付件与版本管理
- 交付件
SiteCard.*,DeviceCard.*,NumericDriftReport,QuantMigrationReport,MetaAnalysisReport(含 theta_i/theta_hat/I2),TransportReport(含 DiD),CrossDev.summary,更新后的 Evidence.bundle 与签名。 - 版本策略
仅新增站点/设备:patch;量化或后端切换:minor(需重跑 Mx-81 → Mx-82);图结构或参数重大变更:major(新 EnvLock 与全量重放)。
版权与许可(CC BY 4.0)
版权声明:除另有说明外,《能量丝理论》(含文本、图表、插图、符号与公式)的著作权由作者(“屠广林”先生)享有。
许可方式:本作品采用 Creative Commons 署名 4.0 国际许可协议(CC BY 4.0)进行许可;在注明作者与来源的前提下,允许为商业或非商业目的进行复制、转载、节选、改编与再分发。
署名格式(建议):作者:“屠广林”;作品:《能量丝理论》;来源:energyfilament.org;许可证:CC BY 4.0。
首次发布: 2025-11-11|当前版本:v5.1
协议链接:https://creativecommons.org/licenses/by/4.0/