← 实验

EFT 平均引力框架 vs 冷暗物质(DM)最小 NFW 基线

作者:屠广林
邮箱:riniky@energyfilament.org | ORCID: 0009-0003-7659-6138
单位:EFT 工作组,深圳市能量丝科学研究有限公司(中国)
版本:v1.1 | 日期:2026-02-14

预印本(未经过同行评审)|本版本用于公开传播与可复核,不代表期刊最终发表版本。

许可协议:报告(CC BY-NC-ND 4.0);全量复现包(CC BY 4.0)。

发布级报告(Concept DOI):https://doi.org/10.5281/zenodo.18526334
全量复现包(Concept DOI):https://doi.org/10.5281/zenodo.18526286

0 执行摘要(Executive Summary)

本报告为 Zenodo 归档的发布级完整报告(Archive edition),提供从数据、模型账本、公平比较、闭合检验到复现材料的一体化可审计链条。附录B(P1A)作为稳健性补充,集中给出“更标准 DM 基线 + 关键系统误差”的压力测试,用于检验正文主结论对更现实 DM 建模与透镜系统误差处理的敏感性。

核心结论(四句,可直接引用;详见第2.4节):

(1)在旋转曲线(RC)拟合中,EFT 系列在所有核函数/先验组合下均显著优于 DM_RAZOR;典型提升为 Δlog𝓛_RC ≈ 10^3(见表S1a)。
(2)在 RC→GGL 的闭合检验中,EFT 给出更强的跨探针可迁移性:闭合强度 Δlog𝓛_closure(True−Perm)显著高于 DM_RAZOR,且差异对协方差 shrinkage、R_min 与 σ_int 扫描具有鲁棒性(见图S3、表S1b)。
(3)在联合拟合(RC+GGL)中,EFT 仍保持稳定优势,并在负对照(破坏共享映射)下优势坍塌,支持“平均引力效应”来自共享映射而非拟合偶然性(见图S4)。
(4)附录B(P1A)在不显著增加维度的前提下,用更标准的 DM 基线模块与一个关键透镜系统误差 nuisance 对 DM 侧进行压力测试;这些增强并未消除 EFT 的闭合优势(见表B1、图B1)。

数据与代码可得性:报告 Concept DOI 10.5281/zenodo.18526334;全量复现包 Concept DOI 10.5281/zenodo.18526286。附录B(P1A)对应的标签为 run_tag=20260213_151233、closure_tag=20260213_161731、joint_tag=20260213_195428。

1 摘要

我们对两类理论框架在同一数据与同一统计协议下进行可复现的定量比较:能量丝理论(Energy Filament Theory, EFT;与常见缩写 Effective Field Theory 含义不同)提出的“平均引力修正”模型,以及冷暗物质(DM)NFW 晕的基线模型(DM_RAZOR)。其中 DM_RAZOR 刻意选取为“最小 DM 基线”:NFW 晕 + 固定 c–M 关系(不含 halo-to-halo scatter),用于提供可审计、可复核的对照。 同时需要强调:本文将 EFT 视为一种唯象学的、类 MOND 的有效场/有效响应参数化,用于在统一统计协议下进行检验,而非在本文中推导其微观第一性原理。

数据包含:SPARC 旋转曲线(RC)经统一预处理与分箱后的 2295 个速度数据点(104 个星系,20 个 RC-bin),以及 KiDS-1000 的星系-星系弱透镜(GGL)等效面密度 ΔΣ(R)(4 个恒星质量 bin × 每 bin 15 个 R 点,共 60 点,使用完整协方差)。

我们依次执行 RC-only 推断、RC→GGL 闭合检验(closure)、GGL-only 推断与 RC+GGL 联合推断,并用一致性审计保证所有引用数值可回溯。在严格的参数账本与共享映射约束下(DM: 20 个 log M200_bin;EFT: 20 个 log V0_bin + 1 个全局 log ℓ),EFT 系列在联合拟合上显著优于 DM_RAZOR:ΔlogL_total = 1155–1337(相对 DM_RAZOR)。更关键地,闭合检验显示 RC 后验对 GGL 具有非平庸预测力:EFT 的闭合强度 ΔlogL_closure = 172–281,高于 DM_RAZOR 的 127;而将 RC-bin→GGL-bin 分组随机打乱后,闭合信号坍塌至 6–23,验证该信号不是统计偶然或实现偏差。在对 σ_int、R_min 与协方差 shrinkage 的系统扫描下,EFT 相对优势保持为正并量级稳定。为回应“DM 基线过弱/系统误差当物理”这类常见质疑,我们在附录B(P1A)提供一套更标准但仍低维、可审计的 DM 基线压力测试(含层级 c–M scatter + prior、单参 core 代理、lensing m 以及组合 DM_STD);在同一闭合协议下,这些增强并未消除 EFT 的闭合优势(见表B1/图B1)。

关键词:旋转曲线;星系-星系弱透镜;闭合检验;EFT;冷暗物质;贝叶斯推断

2 引言与结果概览

旋转曲线(RC)与星系-星系弱透镜(GGL)是两类互补的引力探针:RC 约束盘面内的动力学势与径向加速度关系(RAR),GGL 则测量投影质量分布与晕尺度的引力响应。对任何候选理论而言,关键不在于能否分别拟合两套数据,而在于能否在同一套跨数据映射与共享约束下实现一致解释。

因此,本文以“闭合检验(closure test)”为核心统计协议:先用 RC-only 后验前向预测 GGL,再与置换 RC-bin→GGL-bin 映射的负对照(permutation / shuffle)比较,以评估跨数据迁移预测力(predictive transferability),并排除实现偏差或偶然拟合导致的伪信号。

理论定位与范围:本文不试图在此稿中给出 EFT(能量丝理论)的微观第一性原理推导或相对论完备形式。相反,我们将 EFT 作为一种低维、类 MOND 的有效场/有效响应参数化(由核函数 f(x) 与全局尺度 ℓ 描述),并在严格的参数账本约束下,通过 RC→GGL 的闭合检验来测试其跨数据一致性与迁移预测能力。

研究计划与范围声明:本文属于一个持续的 P 系列观测检索计划。我们在现有星系尺度数据中寻找两类可能的有效背景贡献:(i)可由粗粒化后的平均引力响应描述的“引力底座”(mean gravity floor),以及(ii)与微观过程涨落相关的“噪音底座”(stochastic/noise floor)。在本文(P1)中,我们仅聚焦于前者:在不引入任何微观产生机制假设的前提下,通过 RC→GGL 的闭合检验检索平均引力底座的观测迹象,并在统一对照协议下与可审计的 DM 基线比较。作为启发式物理图像,若存在短寿命自由度,其衰变/湮灭可将静质量转化为其他自由度携带的能量动量,在有效层面自然对应“均值贡献 + 波动贡献”的分解;但本文不对该微观图像作定量建模。

为避免过度解读,本文范围边界如下:
• 本文做什么:在严格参数账本与共享映射约束下,以闭合检验衡量跨数据迁移预测力,并对 EFT 平均引力响应与 DM 基线进行可复现对照。
• 本文不做什么:不讨论任何微观产生机制、丰度/寿命或宇宙学约束;不建模“噪音底座”对应的随机项。
• 本文不主张:不以推翻暗物质为目标;P1 不对“底座是否存在”给出终局判决,而是报告阶段性证据——在本文选取的稳健测量域内,数据更偏好包含平均引力响应的模型。

同时,我们明确 DM_RAZOR 仅代表一个最小化、可审计的 NFW 基线(固定 c–M 且不含 scatter;不含绝热收缩 Adiabatic Contraction、反馈 core、非球形与环境项)。因此,正文主结论严格限定为:在该最小基线与严格参数账本/映射约束下,EFT 的跨数据一致性更强。为回应一个常见问题:更标准的 ΛCDM 基线与关键透镜系统误差建模是否会显著改变结论,我们将更标准但仍低维可审计的 DM 增强与透镜端 nuisance 统一整理为附录B(P1A:DM 基线标准化压力测试),并保持与正文完全一致的共享映射与闭合检验口径(见表B1/图B1)。

2.1 Tab S1a–S1b:关键指标汇总(Strict)

表 S1a 给出联合拟合(RC+GGL)的主比较指标(logL、ΔlogL、AICc、BIC);表 S1b 给出闭合检验与稳健性扫描指标(closure、shuffle 负对照、σ_int / R_min / cov-shrink 扫描范围)。所有数值均来自严格汇总主表 Tab_Z1_master_summary,并可在发布归档包中逐项追溯。

表 S1a|联合拟合主比较指标(RC+GGL,Strict)。

模型(workspace)

W核

k

联合logL_total(best)

ΔlogL_total vs DM

AICc

BIC

DM_RAZOR

none

20

-16927.763

0.0

33895.885

34010.811

EFT_BIN

none

21

-15590.552

1337.21

31223.501

31344.155

EFT_WEXP

exponential

21

-15668.83

1258.932

31380.057

31500.711

EFT_WYUK

yukawa

21

-15772.936

1154.827

31588.268

31708.922

EFT_WPOW

powerlaw_tail

21

-15633.321

1294.442

31309.038

31429.692

表 S1b|闭合与稳健性指标(Strict)。

模型(workspace)

闭合ΔlogL(true-perm)

负对照shuffle后ΔlogL

σ_int扫描ΔlogL范围

R_min扫描ΔlogL范围

cov-shrink扫描ΔlogL范围

DM_RAZOR

126.678

22.725

EFT_BIN

231.611

14.984

459–1548

1243–1289

1337–1351

EFT_WEXP

171.977

6.04

408–1471

1169–1207

1259–1277

EFT_WYUK

179.808

14.688

380–1341

1065–1099

1155–1166

EFT_WPOW

280.513

6.672

457–1500

1203–1247

1294–1308


2.2 Fig S3:闭合强度(RC-only → 预测 GGL)

闭合强度定义为 ΔlogL_closure ≡ ⟨logL_true⟩ − ⟨logL_perm⟩:在 RC-only 后验样本上前向预测 GGL,并与“置换 RC-bin→GGL-bin 映射”的负对照相比。

图 S3|闭合强度(越大越好):RC-only → GGL 预测的平均对数似然优势。


2.3 Fig S4:联合拟合主比较(RC+GGL)

联合拟合优势定义为 ΔlogL_total ≡ logL_total(model) − logL_total(DM_RAZOR)。在相同数据、相同映射、近似相同参数规模下,EFT 系列取得显著更高的联合对数似然。

图 S4|联合拟合优势(越大越好):RC+GGL 的 best logL_total 相对 DM_RAZOR。


2.4 四句结论(可直接引用)

(1)在 SPARC 旋转曲线 + KiDS-1000 弱透镜的统一联合分析中,EFT 平均引力框架模型在严格对照协议下系统性优于 DM_RAZOR:ΔlogL_total = 1155–1337(相对 DM_RAZOR)。

(2)RC→GGL 闭合检验表明 EFT 的预测一致性更强:ΔlogL_closure = 172–281,而 DM_RAZOR 为 127;并且将 RC-bin→GGL-bin 分组随机打乱后闭合信号坍塌至 6–23,显示该信号依赖正确的跨数据映射而非偶然拟合。

(3)对 σ_int、R_min 与协方差 shrinkage 的系统扫描均未改变“EFT 优于 DM_RAZOR”的符号与量级,说明该结论对常见系统扰动具有稳健性。

(4)附录B(P1A)在相同闭合协议下对 DM 基线进行“标准化且可审计”的增强:保留三条一参数增强(SCAT/AC/FB),并新增层级 c–M scatter + prior、单参 core 代理与透镜端剪切标定 m(及其组合 DM_STD)。结果显示:仅 feedback/core 分支对闭合强度带来小幅净提升(122.21→129.45,ΔΔlogL_closure≈+7.25),其余增强对闭合强度贡献不显著或为负,因此正文主结论不依赖 DM_RAZOR 过弱这一假设。

3 数据与预处理

本研究使用两类公开数据,并在工程内用可追溯脚本完成下载、校验(sha256)与预处理。为了保证跨模型公平比较,所有工作区(EFT_BIN / EFT_WEXP / EFT_WYUK / EFT_WPOW / DM_RAZOR)共享完全相同的数据产物与分箱映射。


3.1 旋转曲线(RC,SPARC)

RC 数据来自 SPARC 数据库的 Rotmod_LTG(175 个 rotmod 文件)。预处理后纳入本项目建模的样本为 104 个星系,共 2295 个 (r, V_obs) 数据点,并按恒星质量等规则划分为 20 个 RC-bin。每个数据点包含半径 r(kpc)、观测速度 V_obs(km/s)与误差 σ_obs,以及气体/盘/核球分量速度(V_gas, V_disk, V_bul)。


3.2 弱透镜(GGL,KiDS-1000 / Brouwer+2021)

GGL 数据采用 Brouwer 等(2021)在 KiDS-1000 上给出的 Fig.3 等效面密度 ΔΣ(R)(4 个恒星质量 bin,每 bin 15 个 R 点),并使用其提供的完整协方差。工程中将原始 long-form 协方差重建为每个 bin 的 15×15 方阵,并在 Stage-B 审计中验证维度与数值合理性。


3.3 RC-bin → GGL-bin 映射与总样本量

GGL 的 4 个质量 bin 与 RC 的 20 个 bin 通过固定映射连接:每个 GGL-bin 对应 5 个 RC-bin,并以星系数权重对 RC-bin 贡献做加权平均。该映射在所有模型中保持不变,是闭合检验与联合拟合公平比较的核心约束。最终联合数据点总数 n_total = 2355(RC=2295,GGL=60)。

4 模型与统计方法


4.1 EFT 与 DM 的最小数学规范(可审计/可检验)

本节给出可直接对应实现的最小数学规范。

(a)旋转曲线(RC)模型

对每个 RC 数据点 (r, V_obs, σ_obs),我们使用分量叠加:V_mod²(r) = V_bar²(r) + V_extra²(r)。其中 V_bar²(r) = V_gas²(r) + Υ_d·V_disk²(r) + Υ_b·V_bul²(r)。在本稿主结果中采用 Υ_d = Υ_b = 0.5(与 SPARC 经验推荐一致;亦便于减少非必要自由度)。

(b)EFT 平均引力修正(EFT)

EFT 的额外项采用“平均速度平方”形式参数化:V_extra²(r) = V0_bin² · f(r/ℓ)。这里 V0_bin 是每个 RC-bin 的幅度参数(20 个),ℓ 为全局尺度(1 个),f(x) 为无量纲核形状函数。本文比较的核形状(均不引入额外连续自由度)为:

物理动机(扩展):EFT 将星系尺度上的额外引力响应理解为对更微观作用在有限尺度上的粗粒化/尺度平均后的有效响应。在本文中,我们不预设某一具体微观机制,而采用最小、可审计的参数化,在统一统计协议下进行受控的比较与检验。

为便于直观理解,可将额外项写成加速度形式:a_extra(r)=V_extra²(r)/r=(V0_bin²/r)·f(r/ℓ)。当 r≫ℓ 时,f→1,V_extra→V0_bin,从而给出外区近似平坦的额外速度贡献;当 r≪ℓ 且 f(x)≈x 时,可引入特征加速度尺度 a0,bin≈V0_bin²/ℓ(差一个 O(1) 的核函数因子),提供一种类 MOND 的内-外区过渡标度直觉。

本文采用的离散核族(none/exponential/yukawa/powerlaw_tail)可视为对不同“起始斜率/过渡快慢/长程尾部”的低维 proxy(例如 Yukawa-like 的屏蔽 vs 更长尾的响应),用于稳健性压力测试而非穷尽模型空间。弱透镜部分,我们由 V_avg(r) 构造等效包络质量与密度并投影得到 ΔΣ(R);该等效密度应理解为在球对称、弱场映射假设下对透镜势的有效描述(完整细节已移入附录A)。

上述核形状在 x→∞ 时均满足 f(x)→1(即 V_extra²→V0² 的饱和),而在 x≪1 时给出线性或次线性增长:例如 exponential: f≈x;yukawa: f≈0.5x;powerlaw_tail: f≈0.5x。因此,不同核形状在小半径的“起始斜率”、过渡快慢与外侧尾部上存在可观测差异,可由 RC+GGL 的联合与闭合检验加以区分。

弱透镜 ΔΣ(R) 的 EFT 预测由 V_avg(r) 反推出包络质量与密度,再通过投影积分得到:M_enc(r)=r·V_avg²(r)/G,ρ(r)=(1/4πr²)·dM_enc/dr,Σ(R)=2∫_R^∞ ρ(r)·r/√(r²−R²) dr,ΔΣ(R)=Σ̄(<R)−Σ(R)。数值实现采用对数网格并在异常时自适应加密,以保证稳定性与可重复性。

(c)DM_RAZOR:NFW 冷暗物质晕基线

同时,我们明确 DM_RAZOR 仅代表一个最小化、可审计的 NFW 基线(固定 c–M 且不含 scatter;不含绝热收缩 Adiabatic Contraction、反馈 core、非球形与环境项)。为了降低“strawman baseline”风险,本文并不声称这些效应不存在;相反,我们将其以低维、可审计的方式纳入附录B(P1A)作为压力测试:包括 c–M scatter 的层级化处理、core 代理与透镜端剪切标定 nuisance 等。


4.2 模型账本与公平比较(共享参数 = 闭合定义)

主比较集合的参数数目为:DM_RAZOR k=20;EFT 系列 k=21(多出的 1 个为全局 log ℓ)。所有模型共享:同一 RC 数据、同一 GGL 数据与协方差、同一 RC-bin→GGL-bin 映射、同一重子项与单位转换。此外,核形状(none / exponential / yukawa / powerlaw_tail)为离散选择,不额外引入连续参数,从而避免通过“多一个自由度”获得优势。


4.3 Likelihood、先验与采样器

RC 似然采用对角高斯:σ_eff² = σ_obs² + σ_int²;主结果固定 σ_int=5 km/s,并在 Run-5 中扫描 σ_int。GGL 似然采用逐 bin 的完整协方差高斯:logL_GGL = Σ_b log 𝒩(ΔΣ_obs^b | ΔΣ_mod^b, C_b)。联合目标为 logpost(θ)=logprior(θ)+logL_RC(θ)+logL_GGL(θ)。先验主要体现为物理可行边界(对 log ℓ、log V0、log M200 的区间约束);当启用自由 Υ 与 σ_int 时使用弱信息先验(详见实现与 release 包配置)。

采样器使用自适应 block Metropolis 随机游走:每步仅更新参数空间的随机子块以提高高维接受率,并以窗口接受率对步长做轻量自适应(目标接受率约 0.25)。主结果采用 quick 模式(n_steps=800 等设置),并对每个工作区输出 trace、残差与 PPC 图用于人工与脚本审计。


4.4 闭合检验与负对照(定义)

闭合检验(Run-2)在不重新拟合 GGL 的前提下检验“RC-only 后验是否能预测 GGL”。具体做法:在 RC-only 后验样本上前向生成 4 个 GGL-bin 的 ΔΣ(R),以完整协方差计算 logL_true;再将 RC-bin→GGL-bin 的分组映射做随机置换(permutation)得到 logL_perm。闭合强度定义为 ΔlogL_closure≡⟨logL_true⟩−⟨logL_perm⟩。此外,Run-10 将 20 个 RC-bin 随机重分组为 4×5(shuffle)并重算闭合,用于检验闭合信号对正确映射的依赖性。

5 主要结果与解释


5.1 联合拟合主结果(RC+GGL)

联合拟合的 best logL_total 与相对优势 ΔlogL_total(相对 DM_RAZOR)见表 S1a 与图 S4。主比较集合中,EFT_BIN 的联合优势最大(ΔlogL_total=1337.210),其余 EFT 核形状亦保持显著优势(1154.827–1294.442)。在信息准则上(AICc/BIC),EFT 系列同样显著优于 DM_RAZOR,说明优势并非来自参数数目的偏置。

注:ΔlogL_total≈1337 的主要贡献来自 RC 项(在 joint 分解中 ΔlogL_RC≈1065,占约 80%);这可理解为 N=2295 个 RC 数据点上每点 Δχ²≈0.90 的温和改善在对角高斯似然下自然累积为 10^3 量级的优势。与此同时,GGL 与闭合检验提供独立的跨数据集约束,并且在 σ_int、R_min 与 cov‑shrink 压力测试下排序保持稳定(见第 6 节与表 S1b)。


5.2 闭合检验结果(RC-only → GGL)

闭合检验的关键量 ΔlogL_closure 见表 S1b 与图 S3。EFT 系列的闭合强度为 171.977–280.513,高于 DM_RAZOR 的 126.678。这意味着:在不允许任何额外跨数据自由度的条件下,EFT 在 RC 数据上得到的后验样本对 GGL 数据具有更强的可迁移预测能力。

负对照进一步支持闭合信号的物理相关性:当随机打乱 RC-bin→GGL-bin 分组后,EFT 的闭合强度降至 6–15(不同核略有差异),而基线闭合强度高达 172–281。该“信号坍塌”排除了由数值实现、单位错误或协方差处理不当导致的伪优势。

图 R1|负对照:shuffle 分组后闭合信号显著降低(基于 Tab_Z1 指标绘制)。


5.3 结果的含义与限制

本研究的结论是“在本数据集与本协议下,EFT 平均引力修正优于所测试的 DM_RAZOR 基线”。需要强调:DM 侧仅采用最小 NFW 基线与固定 c(M) 关系,未引入例如核心化、非球形、环境项或更复杂的星系-晕连接模型。因此,本稿并不宣称排除所有 DM 模型族;而是提供一个可复现的、以闭合检验为中心的对照基线,用于评估“RC 与 GGL 是否能被同一套跨数据参数与映射一致解释”。

为回应这一常见疑问,我们完成了一个独立扩展工程 P1A(见附录B),在不改变 RC-bin→GGL-bin 共享映射与审计框架的前提下,对 DM 基线进行“标准化且可审计”的增强:除三条一参数增强(SCAT/AC/FB)外,进一步加入(i)层级 c–M scatter + mass–concentration prior(DM_HIER_CMSCAT),(ii)一参数 baryonic-feedback core 代理(DM_CORE1P),以及(iii)弱透镜端剪切标定 nuisance m(DM_RAZOR_M),并给出组合模型 DM_STD;同时保留 EFT_BIN 作为对照参照。

• DM_RAZOR_SCAT(c–M scatter)——引入 halo-to-halo 的浓度弥散参数 σ_logc,用于检验“固定 c(M)”是否系统性低估 DM 的可解释能力;
• DM_RAZOR_AC(Adiabatic Contraction)——用单参数 α_AC 在“无收缩 ↔ 标准收缩”之间连续插值,以最小代价捕捉重子导致的内区收缩趋势;
• DM_RAZOR_FB(Feedback / core)——用核心尺度(如 log r_core)描述内区核心化对旋转曲线的抑制效应,并在弱透镜尺度上保持 NFW 近似。

P1A 的定量 scoreboard 见附录B表 B1 / 图 B1(由 Tab_S1_P1A_scoreboard 自动生成)。在闭合指标上,DM_RAZOR_FB 给出小幅净提升(122.21→129.45,+7.25),其余增强对闭合强度贡献不显著或为负;而在联合拟合侧,加入层级 c–M scatter prior(DM_HIER_CMSCAT)或组合模型(DM_STD)可显著改善 joint logL,但并未带来闭合强度提升,提示其主要增加的是联合拟合的灵活性而非跨探针可迁移性。因此正文的核心结论应理解为:在严格共享映射与闭合检验约束下,EFT 的跨数据一致性优势并非源于对 DM 侧“过弱基线”的选择。附录B对应的 P1A 发布包(补充表图与 full_fit_runpack)将作为附加文件并入与本文 full_fit_runpack 相同的 Zenodo Concept DOI:https://doi.org/10.5281/zenodo.18526286

6 稳健性与对照实验


6.1 σ_int 扫描(Run-5)

我们对 RC 的内禀散度 σ_int 做系统扫描,并在每个 σ_int 下重复联合推断,计算相对 DM_RAZOR 的 ΔlogL_total。各模型在扫描范围内的 ΔlogL_total 最小/最大值见表 S1b。

图 R2|σ_int 扫描下 ΔlogL_total 的范围(越大越好)。


6.2 R_min 扫描(Run-6)

为检验中心区数据系统误差(例如非圆运动、分辨率与重子建模不充分)的影响,我们对 RC 使用 R_min 阈值裁剪并重复联合推断。EFT 系列的优势在 R_min 扫描下保持为正且量级稳定。

图 R3|R_min 扫描下 ΔlogL_total 的范围(越大越好)。


6.3 cov-shrink 扫描(Run-7)

为检验 GGL 协方差不确定性,我们对每个质量 bin 的协方差矩阵应用 shrinkage:C_α=(1−α)C+α·diag(C),并扫描 α。结果表明 EFT 系列的优势对该处理不敏感。

图 R4|cov-shrink 扫描下 ΔlogL_total 的范围(越大越好)。


6.4 消融阶梯(Run-8)

在 EFT_BIN 内部做嵌套消融:从极简模型(无自由参数)到仅保留少量自由度,再到完整的 20-bin 幅度 + 全局尺度。AICc/BIC 显示完整 EFT_BIN 在数据解释上显著必要。

图 R5|EFT_BIN 的消融阶梯(AICc,越小越好)。


6.5 留出预测(Run-9)

我们进一步执行 leave-one-bin-out(LOO)检验:在 GGL 的 4 个质量 bin 中每次留出 1 个 bin,用其余 bin(以及全部 RC)重新推断,再在留出 bin 上评估测试对数似然。汇总指标见补充表 Tab_R3_leave_one_bin_out(Run-9 产物;第 8.2 节关键产物列表中给出文件路径模式),EFT 系列在最差留出情形下仍明显优于 DM_RAZOR。

图 R6|LOO:留出 bin 的对数似然分布(来自 Run-9 产物)。


6.6 负对照:RC-bin shuffle(Run-10)

Run-10 将 20 个 RC-bin 随机重分组为 4×5,并在保持 RC-only 后验不变的情况下重算闭合。结果显示:与原始映射相比,shuffle 会显著降低闭合的 mean logL_true 与 ΔlogL_closure(见表 S1b 与图 R1),进一步支持闭合信号的可解释性。

图 R7|负对照:shuffle 映射导致闭合 mean logL_true 明显下降(来自 Run-10 产物)。

7 可追溯性与一致性审计(Provenance)

本文所有引用数值均可在发布归档的严格汇总表与审计记录中逐项追溯。为保证正文阅读更顺畅,完整的追溯链(tag 列表、审计表、checksum 清单与核查方式)已移入附录A。

8 可复现性与 Zenodo 归档(Reproducibility & Archive)

数据与代码可用性声明:本文使用的 SPARC 旋转曲线与 KiDS-1000 弱透镜数据均为公开数据。发布级报告已归档至 Zenodo(Concept DOI:https://doi.org/10.5281/zenodo.18526334),全量复现包已归档至 Zenodo(Concept DOI:https://doi.org/10.5281/zenodo.18526286)。详细的执行步骤、依赖环境、归档清单与哈希校验信息见附录A;DM 基线标准化压力测试(P1A)的设计、运行标签与产出见附录B。

在同一全量复现包 Concept DOI(https://doi.org/10.5281/zenodo.18526286)下,我们按用途提供两套可复现入口:
• P1(正文)full_fit_runpack:复现 EFT vs DM_RAZOR 的 RC-only / closure / joint 及稳健性扫描,并生成正文表 S1a/S1b 与图 S3/S4 等资产;
• P1A(附录B)full_fit_runpack:复现 DM 基线标准化压力测试(SCAT/AC/FB + 层级 c–M scatter prior + core1p + lensing m + DM_STD;含 EFT_BIN 对照),并生成附录表 B1 与图 B1。
P1A 的补充表图与 full_fit_runpack将作为附加文件并入同一 Concept DOI,以保持单一归档入口。

9 致谢与声明


9.1 致谢

感谢 SPARC 与 KiDS-1000 团队提供公开数据与文档;感谢本项目重建与审计流程的参与者。


9.2 作者贡献

屠广林负责本研究的概念提出、方案设计、工程实施、数据整理、形式分析、复现流程实现与审计,以及论文撰写。


9.3 经费来源

作者屠广林个人自筹(无外部资助/无基金编号)。


9.4 竞争性利益

作者屠广林与“EFT 工作组,深圳市能量丝科学研究有限公司(中国)”存在关联关系;无其他竞争性利益。


9.5 AI 辅助

使用 OpenAI GPT-5.2 Pro 和 Gemini 3 Pro 进行语言润色、结构化编辑与复现流程梳理;未用于生成或修改数据、结果、图表与代码;未用于生成引用;作者对全文内容与引用准确性承担全部责任。

10 参考文献

附录A:可追溯性与可复现性细节

本附录汇总用于长期归档的可追溯性与可复现性信息(运行标签、审计结果、归档清单与核对要点等),便于读者按需核查与复现。


A.1 可追溯性与审计细节

为保证长期可追溯性,本项目对每次运行与输出使用时间戳 tag,并保留历史产物不覆盖。本稿引用的核心数值来自严格汇总(compile_tag=20260205_035929),并已通过以下一致性审计:

• 所有阶段性表格均带 run_tag 与阶段 tag;严格汇总脚本从 report/tables 中选择“完备且一致”的 canonical 表格来源。

• Tab_Z1_master_summary 与 Tab_Z2_conclusion_highlights 的数值与所选 canonical 表格逐项比对。

• 生成 PDF 时对“引用的表/图的 tag”做标签审计,确保不存在混用旧产物。

关键标签(用于定位全部中间产物):run_tag=20260204_122515;closure_tag=20260204_124721;joint_tag=20260204_152714;sigma_sweep_tag=20260204_161852;rmin_sweep_tag=20260204_195247;covshrink_tag=20260204_203219;ablation_tag=20260204_214642;LOO_tag=20260204_224827;negctrl_tag=20260204_234528;strict_compile_tag=20260205_035929;release_tag=20260205_112442。

一致性审计结果:Tab_AUDIT_checks_strict 显示 pass=9, fail=0, skip=0(详见 release 包)。


A.2 可复现性执行步骤与归档清单

本研究采用“发布级报告 + 表图补充材料 + 全量可重跑运行包”的复现体系:读者可直接查阅 Tables & Figures Supplement 核对本文引用的全部表/图资产;如需从零复现数值与审计链条,可使用 full_fit_runpack 下载数据并重跑全流程(运行结束后可用包内 reference 表对照脚本验证表单数值一致性)。


A.2.1 复现 Quickstart(RUN_FULL,Windows PowerShell)

本节给出一条更简短的复现路径(Windows PowerShell)。快速核查建议直接查阅 Tables & Figures Supplement,以逐项核对本文引用的表格与图形。若需端到端复现并生成全部表/图与审计产物,请使用 full_fit_runpack:按包内 README/ONE_PAGE_REPRO_CHECKLIST 执行 verify_checksums.ps1 与 RUN_FULL.ps1(建议 Mode=full)。

Zenodo 归档入口(Concept DOI):https://doi.org/10.5281/zenodo.18526286
本文主链条标签:run_tag=20260204_122515,strict compile_tag=20260205_035929, release_tag:20260205_112442。


A.2.2 归档材料与关键核对点(Packages & checks)

Zenodo 归档提供以下 3 类互补材料:(1)发布级报告(本文,v1.1;含附录B:P1A DM 基线标准化压力测试);(2)Tables & Figures Supplement(表格与图表补充材料:覆盖本文引用的全部表/图资产;分别对应 P1 与 P1A);(3)full_fit_runpack(全量复现包:从零下载数据并重跑全流程;分别对应 P1 与 P1A)。其中(1)–(2)支持快速阅读与独立核查,(3)提供端到端全量复现能力。

材料类别

文件名(示例)

用途与定位(建议读者按此顺序使用)

发布级报告(中文和英文)

P1_RC_GGL_report_EN_PUBLICATION_V1_1.pdf
P1_RC_GGL_report_CN_PUBLICATION_V1_1.pdf

Zenodo 归档的完整报告;正文给出主结论与稳健性审计,附录B给出 P1A(DM 基线标准化压力测试)。

Tables & Figures Supplement(P1)

P1_RC_GGL_supplement_figs_tables_V1_1.zip

本文正文引用的全部表格(CSV)与图形(PNG),含生成脚本与标签文件。

Tables & Figures Supplement(P1A)

P1A_supplement_figs_tables_v1.zip

附录B(P1A)引用的全部表格与图形,含 Tab_S1_P1A_scoreboard 与 Fig_S1_P1A_scoreboard。

full_fit_runpack(P1)

P1_RC_GGL_full_fit_runpack_v1_1.zip

端到端全量复现:从零下载数据并重跑 RC-only/closure/joint 与稳健性扫描。

full_fit_runpack(P1A)

P1A_RC_GGL_full_fit_runpack_v1.zip

端到端全量复现(附录B):重跑 DM 7+1 + DM_STD(含 EFT_BIN 对照)并生成附录资产;包内含 reference 表对照脚本,用于验证表单数值一致性。

引用建议:引用本文或随附复现材料时,请注明 Zenodo Concept DOI (https://doi.org/10.5281/zenodo.18526334)。

复现后应出现并可比对的关键产物包括:

附录B:P1A—DM 基线标准化压力测试(DM 7+1 + DM_STD;含 EFT 对照)

本附录记录一个与正文闭合协议一致的“DM 基线标准化压力测试”扩展工程(P1A)。其定位是:在不引入大量自由度、不改变 RC-bin→GGL-bin 共享映射与审计框架的前提下,把正文使用的最小 DM_RAZOR(NFW + 固定 c–M、无散射/无收缩/无 core)提升为更贴近天体物理实践、且更能抵御常见质疑的 DM 基线集合。P1A 覆盖并超集此前的三分支压力测试:在保留 SCAT/AC/FB 的同时,新增层级 c–M scatter + prior、单参 core 代理与透镜端剪切标定 nuisance m,并提供组合模型 DM_STD;同时保留 EFT_BIN 作为对照参照。

补充说明:附录B(P1A)中的闭合强度等数值采用更高的 Monte Carlo 预算(例如 ndraw=400, nperm=24),与正文中用于覆盖完整 EFT 核族的 quick 预算(例如 ndraw=60, nperm=12)不同,因而绝对数值可能存在 O(10) 级的采样漂移;但在相同预算/同一表内的模型间比较是公平的,且优势符号与量级在不同预算下保持稳定。


B.1 目的与定位(Why P1A, and why as an Appendix)

P1A 并不试图穷尽所有 ΛCDM 晕建模可能(例如非球形、环境依赖、复杂的星系-晕连接或高维 baryon physics)。相反,P1A 采用“低维、可审计、可复现”的原则:每个增强模块只引入 ≤1 个关键有效参数,并继续接受本文的三条硬约束:
(i)参数账本:新增参数必须明确记账并与信息准则(AICc/BIC)一起报告;
(ii)共享映射:仍使用同一 RC-bin→GGL-bin 分组映射,不允许为单一数据集单独‘调映射’;
(iii)闭合检验:任何增强都必须在 RC→GGL 的迁移预测上体现真实增益,而不仅是 RC-only 拟合变好。


B.2 DM 7+1 + DM_STD:模块定义、参数与进入联合后验的方式

P1A 作为一个独立 runpack,提供 8 个 DM 工作区(DM 7+1)以及 1 个 EFT 对照:以 DM_RAZOR 为基线,构造三条 legacy 一参数增强(DM_RAZOR_SCAT / DM_RAZOR_AC / DM_RAZOR_FB),并新增三条更标准的防御性模块(DM_HIER_CMSCAT / DM_CORE1P / DM_RAZOR_M),再给出组合模型 DM_STD。这些模块的共同目标是:在尽量不增加维度的前提下,覆盖最常见的三类质疑:(a)c–M 关系的弥散与先验如何进入层级模型;(b)baryonic feedback 的主效应可否由一参 core 代理;(c)透镜端关键系统误差是否可能被误当作物理信号。

Workspace

dm_model

新增参数(≤1)

物理动机(核心)

实现原则(审计友好)

DM_RAZOR

NFW (fixed c–M, no scatter)

最小化、可审计的 ΛCDM 晕基线;用于与 EFT 做严格对照

共享映射固定;参数账本严格;作为 baseline 仅用于相对比较

DM_RAZOR_SCAT

NFW + c–M scatter(legacy)

σ_logc

c–M 关系存在弥散;用一参 log-normal scatter 近似

≤1 新参;仍用共享映射;以闭合增益为验收标准

DM_RAZOR_AC

NFW + Adiabatic Contraction(legacy)

α_AC

重子落入可能引发晕绝热收缩;用一参强度近似

≤1 新参;不改映射;报告 AICc/BIC 变化与闭合增益

DM_RAZOR_FB

NFW + feedback core(legacy)

log r_core

反馈可在内区形成 core;用一参 core 尺度近似

≤1 新参;闭合/负对照同口径;不以 RC-only 改善为唯一目标

DM_HIER_CMSCAT

Hierarchical c–M scatter + prior

σ_logc(hier)

更标准的层级化 c_i∼logN(c(M_i),σ_logc);同时影响 RC 与 GGL 联合后验

显式先验;latent c_i 边缘化;仍保持低维可审计

DM_CORE1P

1‑parameter core proxy (coreNFW/DC14‑inspired)

log r_core

用一参 core 代理 baryonic feedback 主效应,避免高维星形成细节

引用标准文献;≤1 新参;与闭合检验绑定

DM_RAZOR_M

NFW + lensing shear‑calibration nuisance

m_shear(GGL)

将弱透镜端关键系统误差以有效参数吸收,降低“把系统误差当物理”风险

nuisance 明确记账;不允许反向影响 RC;结果以闭合稳健为主

DM_STD

Standardized DM baseline (HIER_CMSCAT + CORE1P + m)

σ_logc + log r_core (+ m_shear)

把最常见三类常见质疑同时纳入一个仍低维的标准基线

参数账本+信息准则齐报;闭合为主指标;作为最强 DM 防御对照

说明:上述参数命名以工程实现为准(例如 σ_logc、α_AC、log r_core、m_shear)。P1A 的设计重点是“把 DM 基线做强一点,但仍然可审计”,而不是把 DM 侧变成不可控的高维拟合器。特别地,DM_HIER_CMSCAT 以层级方式引入 c–M scatter:对每个 halo 的浓度 c_i 设定围绕 c(M_i) 的 log-normal 弥散,并通过全局 σ_logc 与 c(M) 先验将其约束;该层级结构会同时影响 RC 与 GGL 的联合后验。


B.3 与正文一致的统计协议与产物口径

P1A 复用正文的全部数据产物、共享映射与审计框架,执行顺序与产物口径保持一致:
(1)Run‑1:RC-only 推断(输出 posterior_samples.npz 与 metrics.json);
(2)Run‑2:RC→GGL 闭合检验(输出 closure_summary.json 与 permuted baseline);
(3)Run‑3:RC+GGL 联合拟合(输出 joint_summary.json)。
所有引用数字均来自自动汇总表(Tab_S1_P1A_scoreboard),并可通过 P1A full_fit_runpack 在全流程重跑后使用内置 reference 表对照脚本复核。


B.4 主要结果、表图入口与归档计划(同 DOI)

本节给出 P1A 的核心定量结论。表 B1 汇总 RC-only、RC→GGL 闭合与 RC+GGL 联合拟合的关键指标(括号中为相对 DM_RAZOR baseline 的差值);闭合强度定义为 ΔlogL_closure ≡ ⟨logL_true⟩ − ⟨logL_perm⟩(越大越好)。图 B1 给出同一 scoreboard 的可视化。结论要点如下:
• legacy 三分支中,仅 DM_RAZOR_FB(feedback/core)对闭合强度带来小幅净提升:122.21→129.45(+7.25);SCAT 与 AC 无净提升;
• 新增的 DM_HIER_CMSCAT 与 DM_RAZOR_M 对闭合强度影响很小(~0),DM_CORE1P 亦未显示显著净提升;
• 组合模型 DM_STD 可显著改善 joint logL(更贴近联合拟合最优),但闭合强度反而下降,提示其主要提升来自联合拟合灵活性而非跨探针可迁移性;
• EFT_BIN 作为对照在闭合强度与联合拟合上仍保持明显优势,因此正文主结论对“更强 DM 基线 + 透镜 nuisance”的引入具有稳健性。

为便于与正文主比较直接对照,正文 Tab S1a–S1b 汇总了 EFT 系列与 DM_RAZOR 的严格对照结果:EFT 模型在联合拟合中相对 DM_RAZOR 提升 ΔlogL_total≈1155–1337,并在闭合检验中达到 ΔlogL_closure=172–281;P1A 只是对 DM 侧做“更难的对照”,其作用是降低“strawman baseline / systematics-as-physics”这类质疑点,而非替代正文的主比较。

表 B1|P1A scoreboard(越大越好;括号为相对 DM_RAZOR baseline 的差值)。

模型分支(workspace)

Δk

RC-only best logL_RC (Δ)

闭合强度 ΔlogL_closure (Δ)

Joint best logL_total (Δ)

DM_RAZOR

0

-15702.654 (+0.000)

122.205 (+0.000)

-27347.068 (+0.000)

DM_RAZOR_SCAT

1

-15702.294 (+0.361)

121.236 (-0.969)

-23153.311 (+4193.758)

DM_RAZOR_AC

1

-15703.689 (-1.035)

121.531 (-0.674)

-23982.557 (+3364.511)

DM_RAZOR_FB

1

-15496.046 (+206.609)

129.454 (+7.249)

-27478.531 (-131.463)

DM_HIER_CMSCAT

1

-15702.644 (+0.010)

121.978 (-0.227)

-23153.160 (+4193.908)

DM_CORE1P

1

-15723.158 (-20.504)

122.056 (-0.149)

-27336.258 (+10.810)

DM_RAZOR_M

0 (+m)

-15702.654 (+0.000)

122.205 (+0.000)

-27340.451 (+6.617)

DM_STD

2 (+m)

-15832.203 (-129.549)

105.690 (-16.515)

-22984.445 (+4362.623)

EFT_BIN

1

-14631.537 (+1071.117)

204.620 (+82.415)

-19001.142 (+8345.926)

图 B1|P1A scoreboard:闭合与联合的 ΔlogL 相对 baseline(越大越好)。

本附录对应的一组已完成运行的示例标签如下(用于定位 P1A 的中间产物与表图):
P1A run_tag = 20260213_151233;P1A closure_tag = 20260213_161731;P1A joint_tag = 20260213_195428。


B.5 建议引用方式(Appendix citation note)

当读者需要在正文主结论之外引用“DM 基线标准化压力测试”时,建议在引用本文主结论的同时注明:‘See Appendix B (P1A) for standardized DM baseline stress tests (legacy SCAT/AC/FB + hierarchical c–M scatter prior + core proxy + lensing shear-calibration nuisance), under the same closure protocol.’