目录 / 文档-技术白皮书(V5.05) / 15-EFT.WP.Methods.Falsification v1.0
I. 范围与目标
- 本章给出以性质断言与形变关系为核心的证伪用例设计方法,覆盖组合覆盖、边界值、突变体生成与杀伤率评估;在 EnvLock 与共同时基 ts = alpha + beta * tau_mono 下形成可复现、可审计的 TestPlan 与证据包。
- 通过标准
- 规格覆盖 cov_spec ≥ tau_cov,用例覆盖 cov_case ≥ tau_case,突变体杀伤率 kill_rate ≥ tau_kill,并经 FDR 或 FWER 控制的统计检验通过(见 第3章 S52-*)。
- 在线守门关联门:GateDecision ∈ {pass, hold, block} 由 cov_spec、kill_rate、TS.error 与风险加权得分联合决定。
II. 术语与符号
- 性质与断言:P(x)(性质谓词),forall x in D: P(x)(全称断言),Oracle(x, y_hat)(判定器),violation(x) ∈ {0,1}。
- 形变关系:MR_k: X → X,不变量 Inv_k(·),x_prime = MR_k(x)。
- 覆盖与集合:C_total(应覆盖规格单元集),C_hit(已命中),cov_spec = ( |C_hit| / |C_total| );用例覆盖 cov_case = ( |T_executed| / |T_planned| )。
- 组合与边界:因素集合 F = {f_1,...,f_m},取值域 V_i;覆盖阵 CA(t, F) 保证任意 t 因素取值组合至少被一个用例覆盖;边界集 B = {B_j},Boundary(B_j) 为决策或物理边界。
- 突变与杀伤:mut_i(突变体),mut_killed(被用例杀死的突变体集合),kill_rate = ( |mut_killed| / |mut_all| )。
III. 公设与最小方程
- P51-6(证据单调性公设)
在固定 TestPlan 语义与 EnvLock 下,增加有效用例不会降低 cov_spec 与 kill_rate,即 cov_spec(t+1) ≥ cov_spec(t),kill_rate(t+1) ≥ kill_rate(t)。 - P51-7(可判定性与可组合公设)
任意复合断言 P = P_a ∧ P_b ∧ ... 的证伪,可由其组成部分的违例集合并给出:violation_P(x) = max( violation_{P_a}(x), violation_{P_b}(x), ... )。 - S52-8(形变关系—性质守恒与违例判定)
对任一 MR_k 与不变量 Inv_k,定义 Oracle_mr(x) = [ Inv_k(x) = Inv_k( MR_k(x) ) ];若 Oracle_mr(x) = false,则记为违例并进入证伪统计。 - S52-9(t-路覆盖阵目标)
令 CA(t, F) 为最小用例集合使任意 t 因素的取值组合在至少一个用例中出现;对 t=2(pairwise)常用,目标为最小化 |CA(t,F)| 同时使 cov_spec = 1 于 t 级组合域。 - S52-10(突变体充分性与区间)
杀伤率 kill_rate = ( |mut_killed| / |mut_all| );以 bootstrap 构造 1 - delta 置信区间,或以二项近似 CI = kill_rate ± z_{1-delta/2} * sqrt( ( kill_rate * ( 1 - kill_rate ) ) / |mut_all| )。 - S52-11(用例优先级得分)
score(t) = w_risk * risk(t) + w_cost * ( 1 / cost(t) ) + w_cov * Δcov(t) + w_kill * E[ kill | t ],系数满足 w_risk + w_cost + w_cov + w_kill = 1。按 score(t) 降序调度执行。 - S52-12(边界选点最小化)
对每个边界 Boundary(B_j),至少取 {left, on, right} 三点:x_left = argmin_{x ∈ B_j^-} dist(x, B_j),x_on ∈ B_j,x_right = argmin_{x ∈ B_j^+} dist(x, B_j),以保证跨边界行为可判别。
IV. 数据与清单口径
- TestPlan.card(最小字段)
id,version,purpose,scope,factors F 与 V_i,t_coverage,BoundarySet B,MR_set,MutatorSet,OracleSpec,risk_model,weights{w_risk,w_cost,w_cov,w_kill},alpha/beta,FDR|FWER 策略,ts_map{alpha,beta},EnvLock,anchor。 - MR.card
{id, Inv_k, transform, domain, constraints, examples[{x, x_prime}] },所有 transform 须通过 check_dim(expr)。 - Mutator.card
{id, operator, granularity, seed, limits, compatibility},并声明与模型/数据通道的适配矩阵。
V. 算法与实现绑定
- 接口扩展(继承 I50-*)
- I50-20 design_test_plan(spec:dict) -> TestPlan(生成 CA(t,F)、边界点与 MR 组合)
- I50-21 prioritize_tests(plan:TestPlan, telemetry:any) -> OrderedSuite
- I50-22 evaluate_kill_rate(suite:any, mutants:any) -> {kill_rate:float, ci:list}
- I50-23 generate_pairwise(F:list, V:list, t:int) -> Cases
- I50-24 generate_boundary_cases(B:list) -> Cases
- I50-25 weave_mr_cases(D:any, MR_set:list) -> Cases
- I50-26 measure_spec_coverage(logs:any, C_total:set) -> {cov_spec:float, C_hit:set}
- 伪代码(用例生成骨架)
- plan ← design_test_plan(spec)
- cases_pair ← generate_pairwise(F, V, t)
- cases_boundary ← generate_boundary_cases(B)
- cases_mr ← weave_mr_cases(D_seed, MR_set)
- suite ← merge_dedup( cases_pair ∪ cases_boundary ∪ cases_mr )
- suite_ordered ← prioritize_tests(plan, telemetry)
- 执行并记录:logs ← run(suite_ordered, OracleSpec)
- cov ← measure_spec_coverage(logs, C_total);kill ← evaluate_kill_rate(suite_ordered, mutants)
VI. 计量流程与运行图
- Mx-59 用例设计与审查
基于 TestPlan.card 自动合成 CA(t,F) 与边界点;人工复核 MR.card 的物理可行与量纲一致;审查 OracleSpec 歧义。 - Mx-5A 执行与在线观测
批/流执行 suite;采集 TS.latency/TS.error、Δcov(t)、在线违例流;异常触发降级或阻断。 - Mx-5B 杀伤率与功效评估
基于 mutants 与执行日志计算 kill_rate、CI 与估计功效 power;若 power < 1 - beta,回补重点区域用例。 - Mx-5C 守门与回退
依据 score_release = g( cov_spec, kill_rate, TS.error ) 与预注册门限决策 GateDecision;不通过则回退至上版 anchor 并生成回归任务。
VII. 验证与测试矩阵
- 最小必测集合
- t=2 组合覆盖:cov_spec(t=2) = 1。
- 边界三点法覆盖所有 B_j。
- 至少 |MR_set| 中每个 MR_k 命中 N_mr_min 次。
- 杀伤与功效
- kill_rate ≥ tau_kill 且 CI 下界 ≥ tau_kill_min。
- 以目标效应量 effect_size 计算所需样本量,保证 power ≥ 1 - beta。
- 多重检验与错误控制
所有断言检验统一进入门控程序,控制 FDR ≤ q_star 或 FWER ≤ alpha_family。 - 一致性与重放
重放 3 次:cov_spec 与 kill_rate 的相对差异 ≤ tau_cv;离线/在线差异 delta_offon ≤ tau_offon。
VIII. 交叉引用与依赖
- 依赖:《Core.DataSpec》(字段与量纲)、《Core.Metrology》(覆盖、置信与窗函数)、《Core.Errors》(异常与告警)、《Core.Threads》(编排与资源)。
- 交叉:《EFT.WP.Methods.Falsification》第3章(公设与检验)、第4章(样本家族与对抗口径)、第9章(在线守门),《EFT.WP.Methods.Inference》第7章(不确定性与校准)。
IX. 风险、限制与开放问题
- 风险与限制
Oracle 歧义导致假阳/假阴;MR_k 非物理形变引入伪违例;覆盖指标与真实风险脱钩;突变体等价问题导致 kill_rate 高估;资源预算约束下的 TS.latency 偏高。 - 开放问题
自适应覆盖阵(基于在线反馈更新 CA(t,F));生成式 MR_k 的可验证性;多域共享 C_total 的迁移与配额。
X. 交付件与版本管理
- 交付件
TestPlan.card,MR.card,Mutator.card,CA_matrix.csv,Boundary.cases.csv,Suite.index.json,Coverage.report,KillRate.report,GateDecision.log,anchor.sig。 - 版本策略
修改 F/V/t、MR_set、MutatorSet、OracleSpec 或门限系数即递增 minor;改变风险模型或门控策略递增 major;任何变更均重签名并更新 fingerprint 与 anchor。
版权与许可:除另有说明外,《能量丝理论》(含文本、图表、插图、符号与公式)的著作权由作者(屠广林)享有。
许可方式(CC BY 4.0):在注明作者与来源的前提下,允许复制、转载、节选、改编与再分发。
署名格式(建议):作者:屠广林|作品:《能量丝理论》|来源:energyfilament.org|许可证:CC BY 4.0
验证召集: 作者独立自费、无雇主无资助;下一阶段将优先在最愿意公开讨论、公开复现、公开挑错的环境中推进落地,不限国家。欢迎各国媒体与同行抓住窗口组织验证,并与我们联系。
版本信息: 首次发布:2025-11-11 | 当前版本:v6.0+5.05