15-EFT.WP.Methods.Falsification v1.0 | 第5章证伪用例设计与覆盖

目录／文档-技术白皮书（V5.05）／ 15-EFT.WP.Methods.Falsification v1.0

第5章证伪用例设计与覆盖

I. 范围与目标

本章给出以性质断言与形变关系为核心的证伪用例设计方法，覆盖组合覆盖、边界值、突变体生成与杀伤率评估；在 EnvLock 与共同时基 ts = alpha + beta * tau_mono 下形成可复现、可审计的 TestPlan 与证据包。
通过标准
- 规格覆盖 cov_spec ≥ tau_cov，用例覆盖 cov_case ≥ tau_case，突变体杀伤率 kill_rate ≥ tau_kill，并经 FDR 或 FWER 控制的统计检验通过（见第3章 S52-*）。
- 在线守门关联门：GateDecision ∈ {pass, hold, block} 由 cov_spec、kill_rate、TS.error 与风险加权得分联合决定。

II. 术语与符号

性质与断言：P(x)（性质谓词），forall x in D: P(x)（全称断言），Oracle(x, y_hat)（判定器），violation(x) ∈ {0,1}。
形变关系：MR_k: X → X，不变量 Inv_k(·)，x_prime = MR_k(x)。
覆盖与集合：C_total（应覆盖规格单元集），C_hit（已命中），cov_spec = ( |C_hit| / |C_total| )；用例覆盖 cov_case = ( |T_executed| / |T_planned| )。
组合与边界：因素集合 F = {f_1,...,f_m}，取值域 V_i；覆盖阵 CA(t, F) 保证任意 t 因素取值组合至少被一个用例覆盖；边界集 B = {B_j}，Boundary(B_j) 为决策或物理边界。
突变与杀伤：mut_i（突变体），mut_killed（被用例杀死的突变体集合），kill_rate = ( |mut_killed| / |mut_all| )。

III. 公设与最小方程

P51-6（证据单调性公设）
在固定 TestPlan 语义与 EnvLock 下，增加有效用例不会降低 cov_spec 与 kill_rate，即 cov_spec(t+1) ≥ cov_spec(t)，kill_rate(t+1) ≥ kill_rate(t)。
P51-7（可判定性与可组合公设）
任意复合断言 P = P_a ∧ P_b ∧ ... 的证伪，可由其组成部分的违例集合并给出：violation_P(x) = max( violation_{P_a}(x), violation_{P_b}(x), ... )。
S52-8（形变关系—性质守恒与违例判定）
对任一 MR_k 与不变量 Inv_k，定义 Oracle_mr(x) = [ Inv_k(x) = Inv_k( MR_k(x) ) ]；若 Oracle_mr(x) = false，则记为违例并进入证伪统计。
S52-9（t-路覆盖阵目标）
令 CA(t, F) 为最小用例集合使任意 t 因素的取值组合在至少一个用例中出现；对 t=2（pairwise）常用，目标为最小化 |CA(t,F)| 同时使 cov_spec = 1 于 t 级组合域。
S52-10（突变体充分性与区间）
杀伤率 kill_rate = ( |mut_killed| / |mut_all| )；以 bootstrap 构造 1 - delta 置信区间，或以二项近似 CI = kill_rate ± z_{1-delta/2} * sqrt( ( kill_rate * ( 1 - kill_rate ) ) / |mut_all| )。
S52-11（用例优先级得分）
score(t) = w_risk * risk(t) + w_cost * ( 1 / cost(t) ) + w_cov * Δcov(t) + w_kill * E[ kill | t ]，系数满足 w_risk + w_cost + w_cov + w_kill = 1。按 score(t) 降序调度执行。
S52-12（边界选点最小化）
对每个边界 Boundary(B_j)，至少取 {left, on, right} 三点：x_left = argmin_{x ∈ B_j^-} dist(x, B_j)，x_on ∈ B_j，x_right = argmin_{x ∈ B_j^+} dist(x, B_j)，以保证跨边界行为可判别。

IV. 数据与清单口径

TestPlan.card（最小字段）
id，version，purpose，scope，factors F 与 V_i，t_coverage，BoundarySet B，MR_set，MutatorSet，OracleSpec，risk_model，weights{w_risk,w_cost,w_cov,w_kill}，alpha/beta，FDR|FWER 策略，ts_map{alpha,beta}，EnvLock，anchor。
MR.card
{id, Inv_k, transform, domain, constraints, examples[{x, x_prime}] }，所有 transform 须通过 check_dim(expr)。
Mutator.card
{id, operator, granularity, seed, limits, compatibility}，并声明与模型/数据通道的适配矩阵。

V. 算法与实现绑定

接口扩展（继承 I50-*）
- I50-20 design_test_plan(spec:dict) -> TestPlan（生成 CA(t,F)、边界点与 MR 组合）
- I50-21 prioritize_tests(plan:TestPlan, telemetry:any) -> OrderedSuite
- I50-22 evaluate_kill_rate(suite:any, mutants:any) -> {kill_rate:float, ci:list}
- I50-23 generate_pairwise(F:list, V:list, t:int) -> Cases
- I50-24 generate_boundary_cases(B:list) -> Cases
- I50-25 weave_mr_cases(D:any, MR_set:list) -> Cases
- I50-26 measure_spec_coverage(logs:any, C_total:set) -> {cov_spec:float, C_hit:set}
伪代码（用例生成骨架）
- plan ← design_test_plan(spec)
- cases_pair ← generate_pairwise(F, V, t)
- cases_boundary ← generate_boundary_cases(B)
- cases_mr ← weave_mr_cases(D_seed, MR_set)
- suite ← merge_dedup( cases_pair ∪ cases_boundary ∪ cases_mr )
- suite_ordered ← prioritize_tests(plan, telemetry)
- 执行并记录：logs ← run(suite_ordered, OracleSpec)
- cov ← measure_spec_coverage(logs, C_total)；kill ← evaluate_kill_rate(suite_ordered, mutants)

VI. 计量流程与运行图

Mx-59 用例设计与审查
基于 TestPlan.card 自动合成 CA(t,F) 与边界点；人工复核 MR.card 的物理可行与量纲一致；审查 OracleSpec 歧义。
Mx-5A 执行与在线观测
批/流执行 suite；采集 TS.latency/TS.error、Δcov(t)、在线违例流；异常触发降级或阻断。
Mx-5B 杀伤率与功效评估
基于 mutants 与执行日志计算 kill_rate、CI 与估计功效 power；若 power < 1 - beta，回补重点区域用例。
Mx-5C 守门与回退
依据 score_release = g( cov_spec, kill_rate, TS.error ) 与预注册门限决策 GateDecision；不通过则回退至上版 anchor 并生成回归任务。

VII. 验证与测试矩阵

最小必测集合
- t=2 组合覆盖：cov_spec(t=2) = 1。
- 边界三点法覆盖所有 B_j。
- 至少 |MR_set| 中每个 MR_k 命中 N_mr_min 次。
杀伤与功效
- kill_rate ≥ tau_kill 且 CI 下界 ≥ tau_kill_min。
- 以目标效应量 effect_size 计算所需样本量，保证 power ≥ 1 - beta。
多重检验与错误控制
所有断言检验统一进入门控程序，控制 FDR ≤ q_star 或 FWER ≤ alpha_family。
一致性与重放
重放 3 次：cov_spec 与 kill_rate 的相对差异 ≤ tau_cv；离线/在线差异 delta_offon ≤ tau_offon。

VIII. 交叉引用与依赖

依赖：《Core.DataSpec》（字段与量纲）、《Core.Metrology》（覆盖、置信与窗函数）、《Core.Errors》（异常与告警）、《Core.Threads》（编排与资源）。
交叉：《EFT.WP.Methods.Falsification》第3章（公设与检验）、第4章（样本家族与对抗口径）、第9章（在线守门），《EFT.WP.Methods.Inference》第7章（不确定性与校准）。

IX. 风险、限制与开放问题

风险与限制
Oracle 歧义导致假阳/假阴；MR_k 非物理形变引入伪违例；覆盖指标与真实风险脱钩；突变体等价问题导致 kill_rate 高估；资源预算约束下的 TS.latency 偏高。
开放问题
自适应覆盖阵（基于在线反馈更新 CA(t,F)）；生成式 MR_k 的可验证性；多域共享 C_total 的迁移与配额。

X. 交付件与版本管理

交付件
TestPlan.card，MR.card，Mutator.card，CA_matrix.csv，Boundary.cases.csv，Suite.index.json，Coverage.report，KillRate.report，GateDecision.log，anchor.sig。
版本策略
修改 F/V/t、MR_set、MutatorSet、OracleSpec 或门限系数即递增 minor；改变风险模型或门控策略递增 major；任何变更均重签名并更新 fingerprint 与 anchor。

版权与许可：除另有说明外，《能量丝理论》（含文本、图表、插图、符号与公式）的著作权由作者（屠广林）享有。
许可方式（CC BY 4.0）：在注明作者与来源的前提下，允许复制、转载、节选、改编与再分发。
署名格式（建议）：作者：屠广林｜作品：《能量丝理论》｜来源：energyfilament.org｜许可证：CC BY 4.0
验证召集： 作者独立自费、无雇主无资助；下一阶段将优先在最愿意公开讨论、公开复现、公开挑错的环境中推进落地，不限国家。欢迎各国媒体与同行抓住窗口组织验证，并与我们联系。
版本信息： 首次发布：2025-11-11 ｜当前版本：v6.0+5.05