06-EFT.WP.Core.DataSpec v1.0 | 第6章分区、索引与查询 | 能量丝理论

第6章分区、索引与查询

I. 范围与对象

规定 D 的物理分区、逻辑索引与查询执行的统一口径，使 partition/build_index/query 在不同 fmt 与存储后端下保持一致的可预估延迟与可验证正确性。
适配时间、空间、路径 gamma(ell) 场景，并与 pk/idx_k、manifest、schema_version、CRS、unit(dim)、m ∈ {0,1} 协同。

II. 术语与目标

目标：最小化扫描体积与 I/O 放大，最大化裁剪与命中率，保证 pk 与契约查询的确定性。
术语：
- K = [k1,k2,...,kd]（分区键序），B_i = card(partition on ki)。
- sel(P) = |{ r ∈ R : P(r) }| / N（选择率）。
- C_proj（投影列集），alpha = |C_proj| / |Fields_total|（投影率）。

III. 公设（P66-*)

IV. 分区策略与命名规范

时间分区：date=YYYY-MM-DD/ 或 hour=YYYY-MM-DD-HH/，窗口宽度 Delta_t 与 fs 在 manifest 声明。
空间分区：crs=EPSG:xxxx/gh=p{p}/，其中 gh = geohash(lon,lat,p) 或等价 s2cell 编码。
路径分区：pid=<path id>/ell_bucket=[ell_lo,ell_hi)/ 与 L_gamma = ( ∫_gamma 1 d ell ) 一并记录。
标签分区：sid=<site>/tid=<trajectory>/ 等低基数维度用于二级分桶。
组合分区：K = [date, sid, pid]（自左至右递减选择率）。

V. 分区键选择的代价模型（S66-1）

设顶层至第 d 层分区桶数向量 B = [B1,...,Bd]，谓词在各键上的匹配比例 f = [f1,...,fd]。
近似独立时（显式 approx independence）：
- E[parts(P)] approx prod_{i=1..d} ceil( fi * Bi )。
- V_scan approx E[parts(P)] * avg_bytes_per_part * ( alpha / ratio_compress )。
- L approx seek_cost * E[parts(P)] + V_scan / throughput_io。
选键准则：在候选集上最小化 E[parts] 与 L，并约束 B_i 不超过目标元数据开销。

VI. 时间序列分区规范

VII. 空间与路径分区规范

空间：
- gh = geohash(lon,lat,p)，格网角尺度近似 tile_deg ≈ 180 / 2^p；p 由期望空间选择率与热点分布确定。
- 记录 CRS 且对 lon/lat/alt 使用 float64；跨 CRS 查询需归一化后再下推。
路径 gamma(ell)：
- 以 K = [pid, ell_bucket] 分区，并在行组层使用连续 ell 区段；
- 对 T_arr 数据集保留两口径结果与 delta_form 字段，支持区段级聚合。

VIII. 目录与文件命名（与 manifest 对齐）

模板：.../dataset=DS/schema=S/version=vX.Y.Z/date=YYYY-MM-DD/sid=.../pid=.../ell=[a,b)/part-00000-of-000K.parquet。
每个 part 在 manifest.files[*] 中记录 { path, bytes, hash_sha256, row_count, row_group_count, min,max }。

IX. 索引类型与存储绑定

主索引：
pk 聚簇（按 pk 排序或哈希分桶），保证等值查询 O(log N) 或 O(1) 桶定位。
二级索引（idx_k）：
- B+tree：适合范围查询与有序扫描（ts、ell、数值区间）。
- hash：高基数等值查询（uid、rid）。
- bitmap：低基数维度（sid、质量标签、枚举）；支持位运算复合谓词。
- inverted：文本与多值标签（tags[]）。
列式辅索：
- 区段统计（zone map）：[min_i,max_i]；若与谓词区间不相交则裁剪。
- Bloom 过滤：对热列启用；假阳率 p_fp approx ( 1 - exp( -k * n_elem / m_bits ) )^k。
- 字典与游程编码：提升位图与范围剪枝效果。

X. 复合索引与前缀规则（S66-2）

XI. 查询规范与下推顺序

XII. 典型查询模板

pk 等值：SELECT * WHERE pk = rid，路径：idx(pk) → 定位 → 单行返回。
时间窗：SELECT C_proj WHERE ts ∈ [t0,t1)，路径：分区裁剪 date/hour → zone map → 行过滤。
空间窗：SELECT * WHERE gh IN {tiles} AND CRS = ref，路径：格网集合裁剪 → 二级索引或行过滤。
路径段：SELECT C_proj WHERE pid = p AND ell ∈ [a,b)，路径：K=[pid,ell_bucket] 裁剪 → B+tree(pid,ell) 扫描。
T_arr 区段聚合：
- T_arr(factored) = ( 1 / c_ref ) * ( ∑ over rows n_eff * Δell )；
- T_arr(general) = ( ∑ over rows ( n_eff / c_ref ) * Δell )；
- delta_form = | T_arr(factored) - T_arr(general) | 并断言 delta_form ≤ tol_Tarr。

XIII. 一致性与契约检查

XIV. 流程 Mx-4（分区与索引构建）

XV. 运行参数与基线建议

XVI. 实现绑定（I60 对齐）

XVII. manifest 扩展字段（分区与索引）

XVIII. 变更与兼容