目录 / 文档-技术白皮书 / 46-EFT.WP.Data.Benchmarks v1.0
I. 章节目的与范围
对抗性(adversarial)**在基准中的规范:偏移类型与强度刻度、对抗威胁模型与参数、评测协议与阈值、报告格式与统计显著性、与评分/排名/门槛联动;确保与任务定义、指标体系、评测协议、计量与引用锚点一致。与、**分布偏移(shift)鲁棒性(robustness)固化II. 术语与依赖
- 术语:synthetic_shift、natural_shift、severity、Δ_rel(相对降幅)、adv.threat_model(whitebox|blackbox|transfer)、‖δ‖_p ≤ ε、attack_steps/restarts/targeted、robust_accuracy、auc_robust。
- 依赖:指标与单位(本卷第6章)、评测协议(第7章)、运行环境(第10章)、评分与门槛(第8章)、单位与量纲(《Core.Metrology v1.0:check_dim》)。
- 数学与符号:内联符号一律用反引号;含除号/积分/复合算符必须加括号;如涉路径量 T_arr,采用
- T_arr = ( 1 / c_ref ) * ( ∫ n_eff d ell ) 或
- T_arr = ( ∫ ( n_eff / c_ref ) d ell ),并声明 gamma(ell) 与 d ell;公式/符号/定义禁用中文。
III. 字段与结构(规范性)
robustness:
shift_tests: # 合成偏移/扰动
- {name:"snr_drop", severity:[3,6,9], unit:"dB", policy:"additive-noise"}
- {name:"time_jitter",ms:[5,10,20], policy:"shuffle-window"}
- {name:"spec_notch", bands:[["0.3","0.5"],["0.6","0.7"]], unit:"fraction"}
natural_shifts: # 自然域偏移
axes: ["device","region","season","domain","locale"]
splits: ["val","test"]
adversarial: # 对抗性评测
enabled: false
threat_model: "whitebox|blackbox|transfer"
norm: "Linf|L2|L1"
epsilon: 0.01
steps: 10
restarts: 1
targeted: false
metrics: # 鲁棒性指标
primary: ["Δ_rel","acc_robust","auc_robust"]
curves: ["acc-vs-ε","acc-vs-SNR","acc-vs-mask"]
thresholds: # 发布门槛(阻断/预警)
drop_rel_max: 0.10 # 允许的最大相对降幅
acc_robust_min: 0.80 # 指定偏移下的最小稳健准确率
ece_max_under_shift: 0.05 # 偏移下校准上限
reporting:
table_axes: ["shift","severity","metric"]
include_ci: true # 配 95% CI
significance: {method:"bootstrap", B:10000, alpha:0.05}
online_consistency: # 线上一致性(如适用)
shadow_mode: true
window: "7d"
drift_monitors: ["drift_kl","psi"]
alert_rules:
- {name:"robust_drop", rule:"Δ_rel>0.10 for 60m", severity:"high"}
IV. 偏移类型与强度刻度
- 合成偏移:
- snr_drop:加性噪声,severity 以 dB 指定;需声明噪声类型(高斯/有色)、随机种子与施加位置(归一化前/后)。
- time_jitter:窗口重排/抖动;给出 ms 窗口与边界处理。
- spec_notch:频带挖空;声明归一化频带范围与掩膜策略(零/中位数)。
- 自然域偏移:device/region/season/domain/locale 等轴;需报告覆盖、样本量与与数据卡 coverage 的一致性校核。
V. 对抗性评测(威胁模型与参数)
- 威胁模型:whitebox(如 PGD)、blackbox(分数/决策)、transfer(迁移);
- 约束:‖δ‖_p ≤ ε,给出 steps/restarts/targeted;
- 安全护栏:对抗样本仅用于离线或影子流量;禁止在生产路径不加隔离地上线。
VI. 指标、阈值与联动
- 相对降幅:Δ_rel = ( baseline - under_shift ) / max( baseline, ε );
- 稳健准确率:在给定严重度或最坏情形下的 acc_robust;
- 面积指标:auc_robust(跨 ε/SNR/掩膜强度的曲线下面积);
- 校准漂移:偏移下报告 ECE/Brier 并与 ece_max_under_shift 比较;
- 门槛联动:Δ_rel>drop_rel_max 或 acc_robust<acc_robust_min 或 ECE 超上限 → 发布阻断;与第8章评分门槛一致。
VII. 统计与报告
- 显著性:默认 bootstrap (B≥10k, α=0.05);提供 CI_95;跨多模型/多轴比较应用 Holm–Bonferroni 校正;
- 报告格式:表格按 shift/severity/metric 维度展开;附曲线图(acc-vs-ε/SNR/mask)与关键点估计。
VIII. 计量与单位(SI)
- 性能与资源:QPS(1/s)、latency_ms.{p50,p95,p99}、ρ(—)、net_mbps、size_bytes;
- 强制:metrology:{units:"SI", check_dim:true};组合/比较前先单位归一;
- 路径量:若鲁棒性实验涉及 T_arr 相关处理或指标,登记 delta_form/path/measure 并按两种等价式通过 check_dim。
IX. 机器可读片段(可直接嵌入)
robustness:
shift_tests:
- {name:"snr_drop", severity:[3,6,9], unit:"dB", policy:"additive-noise"}
- {name:"time_jitter", ms:[5,10,20], policy:"shuffle-window"}
- {name:"spec_notch", bands:[["0.3","0.5"],["0.6","0.7"]], unit:"fraction"}
natural_shifts: {axes:["device","region"], splits:["val","test"]}
adversarial: {enabled:false, threat_model:"whitebox", norm:"Linf", epsilon:0.01, steps:10, restarts:1, targeted:false}
metrics: {primary:["Δ_rel","acc_robust"], curves:["acc-vs-ε","acc-vs-SNR"]}
thresholds: {drop_rel_max:0.10, acc_robust_min:0.80, ece_max_under_shift:0.05}
reporting: {table_axes:["shift","severity","metric"], include_ci:true, significance:{method:"bootstrap", B:10000, alpha:0.05}}
online_consistency:
shadow_mode: true
window: "7d"
drift_monitors: ["drift_kl","psi"]
alert_rules: [{name:"robust_drop", rule:"Δ_rel>0.10 for 60m", severity:"high"}]
metrology: {units:"SI", check_dim:true}
X. Lint 规则(节选,规范性)
lint_rules:
- id: SHIFT.SPEC_DEFINED
when: "$.robustness.shift_tests[*]"
assert: "has_keys(name) and (has_key(severity) or has_key(ms) or has_key(bands))"
level: error
- id: ADV.THREAT_ALLOWED
when: "$.robustness.adversarial.threat_model"
assert: "value in ['whitebox','blackbox','transfer']"
level: error
- id: ADV.PARAMS_VALID
when: "$.robustness.adversarial"
assert: "value.enabled == false or (has_keys(norm, epsilon, steps) and epsilon > 0 and steps >= 1)"
level: error
- id: METRIC.THRESHOLDS_DEFINED
when: "$.robustness.thresholds"
assert: "has_keys(drop_rel_max, acc_robust_min)"
level: error
- id: REPORT.CI_REQUIRED
when: "$.robustness.reporting"
assert: "value.include_ci == true and has_keys(significance.method, significance.alpha)"
level: error
- id: METROLOGY.SI_AND_CHECKDIM
when: "$.metrology"
assert: "units == 'SI' and check_dim == true"
level: error
XI. 交叉引用锚点
- 指标体系与单位:见《EFT.WP.Data.Benchmarks v1.0》第6章。
- 评分、归一化与门槛:见第8章。
- 评测协议与运行环境:见《EFT.WP.Data.ModelCards v1.0》第11章、本卷第10章。
- 单位与量纲校核:见《EFT.WP.Core.Metrology v1.0:check_dim》。
XII. 本章合规自检
- 合成/自然偏移与对抗性设置完整;威胁模型、范数与 ε/steps/restarts/targeted 明确。
- 指标与阈值齐备,Δ_rel/acc_robust/auc_robust 与校准漂移共同报告;门槛与第8章一致。
- 显著性与置信区间配置(含多重比较校正)有效;报告含表格与曲线。
- SI 计量与 check_dim=true 生效;涉 T_arr 已登记 delta_form/path/measure 并通过校核。
- 机器可读片段可直接落盘并通过 Lint;线上一致性(若适用)含影子/漂移监测与告警规则。
版权与许可(CC BY 4.0)
版权声明:除另有说明外,《能量丝理论》(含文本、图表、插图、符号与公式)的著作权由作者(“屠广林”先生)享有。
许可方式:本作品采用 Creative Commons 署名 4.0 国际许可协议(CC BY 4.0)进行许可;在注明作者与来源的前提下,允许为商业或非商业目的进行复制、转载、节选、改编与再分发。
署名格式(建议):作者:“屠广林”;作品:《能量丝理论》;来源:energyfilament.org;许可证:CC BY 4.0。
首次发布: 2025-11-11|当前版本:v5.1
协议链接:https://creativecommons.org/licenses/by/4.0/