目录 / 文档-技术白皮书 / 12-EFT.WP.Methods.Repro v1.0
I. 范围与目标
- 本章定位本卷的方法学边界:以数据与算法工件为对象,给出可复现、可再现与可移植的等级定义、度量与通过门 gate.rep,确立跨环境与跨站点的最小合规要求。
- 目标包括:
- 建立复现等级体系与指标族,核心度量为 delta_rep 与 R_coef。
- 给出时基映射 ts = alpha + beta * tau_mono 的统一口径与校准流程。
- 规定最小清单与审计轨字段,确保追溯与合规验证可操作。
- 绑定实现原型 I30-* 与计量流程 Mx-3*,支持自动化验收。
- 通过标准(摘要):
- 数值域:delta_rep <= tau_rep 且 R_coef >= 1 - tau_rep。
- 谱域:| var(x) - ( ∫ S_xx(f) df ) | <= tau_psd。
- 口径一致:若涉及到达时,须并行报告两口径 T_arr = ( 1 / c_ref ) * ( ∫ n_eff d ell ) 与 T_arr = ( ∫ ( n_eff / c_ref ) d ell ) 的差异 delta_form,并提交路径 gamma(ell) 与测度 d ell。
II. 术语与符号
- 复现分层
- 可复现 reproducible:同一站点、同一 EnvLock、同一 seed 下,输出满足 delta_rep 门限。
- 可再现 replicable:不同站点或轻度环境差异,输出满足统计一致性门与谱一致性门。
- 可移植 portable:跨硬件/OS/加速器栈,保持接口与指标门限不变。
- 指标与门限
- delta_rep = ( norm( y_new - y_ref ) / max( norm( y_ref ), eps_floor ) )
- R_coef = 1 - delta_rep
- gate.rep:复现通过门集合,含数值门 tau_rep、谱门 tau_psd、时基门 tau_tb。
- eps_floor:避免分母退化的正数下界,建议 eps_floor = 1e-12(可配置)。
- 时基与随机性
- tau_mono 单调内部时基;ts 外部发布时基;映射 ts = alpha + beta * tau_mono。
- seed 随机种;rng_family 随机数族;rng_device 设备侧生成器标识。
- 环境与签名
EnvLock 环境锁;hash(·) 工件哈希;fingerprint 版本与依赖聚合指纹。 - 冲突名与跨卷口径
- T_fil 仅指张力;T_trans 仅指透射系数;n 与 n_eff 严格区分。
- 路径与测度统一写作 gamma(ell) 与 d ell。
III. 公设与最小方程
- P31-1 确定性重放公设
在固定 EnvLock 与 seed 下,同一管线对同一输入产生同分布输出;若无随机分支,则产生同一字节级工件(hash(outputs) 相等)。 - P31-2 时基对齐公设
对任意观测序列,存在仿射映射 ts = alpha + beta * tau_mono 使跨设备时间轴可比较;alpha, beta 可由标定获得且在稳定窗口内缓慢漂移。 - P31-3 工件不可变性公设
任一入湖对象须由内容寻址:oid = hash(bytes(obj));任何修改产生新 oid 与新 fingerprint。 - S32-1 结果差异最小方程
delta_rep = ( norm( y_new - y_ref ) / max( norm( y_ref ), eps_floor ) ),R_coef = 1 - delta_rep。 - S32-2 谱一致性与能量守恒
| var( x ) - ( ∫ S_xx(f) df ) | <= tau_psd,积分域、窗口与 ENBW 必显式报告。 - S32-3 两口径并行差异
若涉及 T_arr,发布 delta_form = | T_arr(form1) - T_arr(form2) | / max( |T_arr(form2)|, eps_floor ),并附 c_ref 与介质清单。
IV. 数据与清单口径
- 入湖最小字段(示例,按《Core.DataSpec》命名)
- 基本:project_id,dataset_id,schema.version,submit_ts
- 来源:source.uri,source.oid = hash(·),fingerprint
- 环境:EnvLock.os,EnvLock.kernel,EnvLock.driver,EnvLock.accel,EnvLock.libs[]
- 随机性:seed,rng_family,rng_device
- 时基:alpha,beta,tau_mono_origin,ts_origin
- 窗口与测度:window = [t0, t1],fs,window_fn,U_w,ENBW
- 路径口径:若有路径积分,提供 gamma(ell) 参数化与支集,测度 d ell
- 到达时:若使用两口径,提供 c_ref,n_eff 口径与 delta_form
- 指标:delta_rep,R_coef,tau_rep,tau_psd,pass(bool)
- 单位与量纲
所有量执行 check_dim(expr);无量纲:delta_rep,R_coef,alpha,beta(若 ts 与 tau_mono 同单位则 beta 无量纲)。 - 追溯与合规
清单必须支持单点还原:{EnvLock, PipelineCard, ParamCard, inputs} → outputs;任何缺失项须以 missing.* 字段显式标注。
V. 算法与实现绑定
- 原型(与附录B一致)
- I30-1 freeze_environment(config:dict) -> EnvLock
- I30-2 emit_pipeline_card(state:any) -> dict
- I30-3 run_benchmark_suite(card:dict) -> BenchReport
- I30-4 verify_reproduction(golden:any, candidate:any, metrics:dict) -> RepReport
- I30-6 align_timebase(trace:any, reference:any) -> {alpha:float, beta:float, fit:dict}
- 幂等与异常
- 任何 I30-* 调用满足幂等:重复调用返回同一工件标识或显式 no-op。
- 异常枚举:E_ENV_DRIFT,E_DATA_MISMATCH,E_TIMEBASE_SKEW,E_NONDETERMINISM,E_SEED_INVALID,E_SCHEMA_MISMATCH。
VI. 计量流程与运行图
- Mx-31 复现引导(bootstrap)
- 执行 I30-1 冻结环境并生成 EnvLock
- 生成 PipelineCard 与 ParamCard(I30-2)
- Mx-32 时基对齐
- 采集对齐片段,计算 alpha, beta = I30-6(...)
- 写入清单并设置门 tau_tb
- Mx-33 基准运行
- 以 EnvLock 重放基准套(I30-3)
- 产出候选工件与中间指标 TS.*
- Mx-34 复现验证与发布
- 计算 delta_rep、R_coef、谱一致性
- 评估 gate.rep,生成 RepReport = I30-4(...)
- 合格则入湖与发布,否则按回退剧本执行
- 关键观测与告警
- 时基漂移告警:|beta - 1| > tau_tb 或 |alpha| > tau_tb_shift
- 非确定性告警:同 seed 多次重放 delta_rep 方差超阈
VII. 验证与测试矩阵
- 最小用例
- 固定 seed 的确定性算例:期望 delta_rep = 0
- 含随机噪声的统计算例:期望 E[delta_rep] <= tau_rep 且置信 >= 1 - p_alpha
- 谱一致性算例:期望 tau_psd 通过
- 边界与极端
- GPU/原子序/并行归约顺序变化
- 采样频率漂移与缺包
- 数据类型切换(float32 ↔ float64)
- SLO 与门限(建议起点,可在项目级覆盖)
- tau_rep <= 2e-2,tau_psd <= 1e-3,tau_tb <= 5e-4
- 统计功效:样本量满足检出 delta_rep >= tau_rep 的功效 >= 0.8
VIII. 交叉引用与依赖
- 《Core.Threads》:并发语义、TS.* 指标、hb、bp
- 《Core.Sea》:tau_mono、ts 与时基对齐
- 《Core.Metrology》:S_xx(f)、U_w、ENBW` 的计量口径
- 《Core.DataSpec》:清单与模式演进
- 《Core.Errors》:门限、统计功效与告警等级
- 《Core.Equations》《Core.DrawingKinetics》:涉及 T_arr 两口径与路径测度时的对齐要求
IX. 风险、限制与开放问题
- 非确定性源不可完全屏蔽(线程调度、硬件指令、库算法路径),需以统计门限兜底。
- 多站点 EnvLock 不可完全等价,需发布差异清单与影响评估。
- 长期漂移(驱动、微码、编译器)可能破坏二进制兼容,需 LTS 工件与再构建剧本。
- 开放问题:跨加速器的数值等价定义、混合精度对 delta_rep 的可分配预算。
X. 交付件与版本管理
- 产出清单
- EnvLock、PipelineCard、ParamCard
- BenchReport、RepReport、AuditTrail(含 hash(·) 与 fingerprint)
- 发布包与长留存快照(含 alpha, beta, tau_*)
- 版本策略
- 语义化版本,通道 canary / stable / LTS
- 变更类别:ADD/MOD/FIX/PERF/SEC/DOC
- 双跑比对策略:新旧版本并行,计算 delta_rep 与 R_coef;未通过则自动回退
- 发布要求
所有工件必须可单点还原;涉及到达时的工件须并行发布两口径结果与 delta_form。
版权与许可(CC BY 4.0)
版权声明:除另有说明外,《能量丝理论》(含文本、图表、插图、符号与公式)的著作权由作者(“屠广林”先生)享有。
许可方式:本作品采用 Creative Commons 署名 4.0 国际许可协议(CC BY 4.0)进行许可;在注明作者与来源的前提下,允许为商业或非商业目的进行复制、转载、节选、改编与再分发。
署名格式(建议):作者:“屠广林”;作品:《能量丝理论》;来源:energyfilament.org;许可证:CC BY 4.0。
首次发布: 2025-11-11|当前版本:v5.1
协议链接:https://creativecommons.org/licenses/by/4.0/