附录A 平均引力底座的第一轮星系尺度检索（P1实验）

EFT 是一套体量很大的物理理论。它不可能靠一次实验就被宣布成立，也不可能靠一次实验就被彻底清空。它只能在一系列可复核、可比较、可继续加压的实验里，被逐步支持、收紧，或者被证伪。P1 便是这条实验链上的第一项星系尺度检索。它不是孤立事件，而是 P 系列中的首批实验；P1 已经完成，后续工作仍将沿不同观测窗口继续展开。

之所以先从 P1 这样一项实验切入，有现实原因，也有理论原因。现实上，首批检验必须服从现有资源与公开数据的条件；一套新理论不可能一上来就把最昂贵、最长周期的实验全部铺开。理论上，EFT 的两条起始公理是：真空不空，宇宙是一片连续的能量海；粒子不是点，而是卷起、闭合、上锁的结构。用更短的话说，就是“真空是海，粒子是环”。若这套底图成立，那么大量短寿命结构的持续生灭，在粗粒化之后，就有理由在宏观引力读数中留下平均底座的痕迹。P1 选择的，正是这条最适合先下手、也最能碰到底层公理的检索方向：拿 EFT 所说的平均引力效应，与传统暗物质解释做第一轮正面对照。

我们具体做的，是一组“换窗复核”的实验。先看星系内部的物质怎么转，再看同类星系在更大尺度上怎样把背景光线压弯。前者是旋转曲线，后者是星系—星系弱透镜。实验真正要找的，不是谁能把一扇窗里的现象单独讲通，而是谁能在换一扇窗以后，仍旧讲的是同一张引力地图。P1 使用了 104 个星系、2295 个旋转曲线数据点，以及 4 个质量分组、共 60 个弱透镜数据点；检验方法则是先用旋转曲线定出模型，再去预测弱透镜，看它换窗以后还认不认得同一张图。

第一轮比较里，EFT 一侧给出了 4 个模型：EFT_BIN、EFT_WEXP、EFT_WYUK、EFT_WPOW；对照方先给出 1 个最小冷暗物质基线：DM_RAZOR。结果是，4 个 EFT 模型全部占优。联合比较的领先量达到 ΔlogL_total = 1155–1337；闭合比较里，EFT 的分值为 172–281，而 DM_RAZOR 为 127。这里的分值不是日常意义上的“几分比几分”，而是累计证据量：更像一张长卷在全部阅完之后的总领先，靠的是大量局部比较里持续占优，而不是靠某一道题突然爆分。更关键的是，一旦把真实的分组对应关系故意打乱，EFT 的闭合分值会立刻掉到 6–23，这说明它的优势依赖真实的跨窗口对应关系，而不是随便怎么拼都能拼出来。

第二轮比较，问的是另一个更难的问题：会不会只是因为第一轮给暗物质一侧上的基线太简单，所以 EFT 才显得赢得明显。于是题目不变、规则不变，只把暗物质一侧继续补强，加入 7 种更标准的增强写法，包括浓度散布、绝热收缩、feedback/core、层级 c–M 散布、单参 core 代理、透镜端剪切标定，以及组合版 DM_STD；EFT 一侧则保留 EFT_BIN 作为代表继续对照。结果显示，对照方并非完全没有回分空间，其中 feedback/core 分支确实把闭合分值从 122.205 小幅推高到 129.454；但这种提升仍明显落后于 EFT_BIN 的 204.620。尤其 DM_STD 虽然能改善联合拟合，却没有改善跨窗口闭合，说明它更像把局部拟合做活了，而没有把“同一张底图”真正讲顺。

把这两轮实验放在一起看，P1 给出的不是一句“所有争论到此结束”的口号，而是一个更扎实也更克制的结论：在这次覆盖的星系尺度范围内，旋转曲线和弱透镜更像是在读同一张引力地图；而 EFT 的平均引力响应写法，比这次被拿来比较的暗物质基线及其补强版本，更接近这张地图的共同轮廓。也正因此，P1 的意义不只在于赢下一场拟合比较，而在于它为 EFT 最核心的底图之一——如果真空确是一片“海”，那么海就应在宏观窗口留下底座痕迹——拿出了第一批可以复核的观测证据。P1 已经完成；沿这条线继续展开的后续实验，才会决定这条线索最终是被加固、被改写，还是被放弃。

这份实验的完整报告见：Zenodo Concept DOI 10.5281/zenodo.18526334；全量复现软件包见：Zenodo Concept DOI 10.5281/zenodo.18526286。