目录文档-技术白皮书(V5.05)08-EFT.WP.Core.Sea v1.0

第7章 数据通路与入湖


I. 目标与范围


II. 数据形制与生命周期(术语)

  1. 数据形制
    • record(单条观测,含 ts 与 sid);chunk(批次文件内逻辑块);object(湖中存储对象)。
    • dataset(一组同模式对象,按分区组织);manifest(元数据清单)。
  2. 生命周期阶段
    ingest_edge(设备侧或边缘网关)、staging(暂存与复核)、lake_raw(原始区)、lake_refined(精炼区)、lake_feature(特征区)。
  3. 口径不变性
    lake_raw 禁止数学口径转换(如 PSD 单边/双边切换);此类转换只允许在 lake_refined 之后执行并记录衍生谱系。

III. 公设 P87-*(数据通路一致性)


IV. 最小方程 S87-*(容量、吞吐与延迟)

  1. S87-1 块尺寸与样本数
    • N_samples_per_chunk = floor( B_target * 8 / ( channels * bits_per_sample ) )。
    • S_chunk_raw = header_bytes + N_samples_per_chunk * channels * bits_per_sample / 8。
  2. S87-2 压缩与有效大小
    r_c = S_chunk_raw / S_chunk_comp;若高斯近似,熵上界 H_est ≈ 0.5 * log2( 2 * pi * e * sigma_x^2 )(单位 bits/sample),则 r_c <= bits_per_sample / H_est。
  3. S87-3 入湖时间分解
    T_put ≈ T_net + T_comp + T_fs,其中 T_net = S_chunk_comp / BW_wire_eff。
  4. S87-4 排队近似与等待
    • mu = 1 / E[T_put];rho = lambda / mu;W_q ≈ rho / ( mu - lambda )(M/M/1 近似),W = W_q + 1 / mu。
    • Little 定律:L = lambda * W;将 L 作为通道缓冲与小文件率控制目标。
  5. S87-5 日产出与文件数
    S_day_comp = S_chunk_comp * N_chunks_day;N_files_day = ceil( S_day_comp / S_target_object )。

V. 序列化与模式(fmt/schema)


VI. 块化与压缩(chunking/compress)

  1. 目标
    控制对象大小接近 S_target_object ∈ [16 MiB, 256 MiB],兼顾列式页对齐、批读效率与小文件率。
  2. 建议
    B_target ∈ [4 MiB, 32 MiB];列式页 page_size ∈ [64 KiB, 1 MiB];压缩 zstd level 3–6 或 lz4hc level 4–12。
  3. 预处理
    • 差分与去趋势:x' = x - median(x);delta 编码可显著提升 r_c。
    • 量化再压缩:当 ENOB << ADC_bits 时,先行无失真重量化到 ENOB。

VII. 传输、通道与背压(与《Core.Threads》对齐)


VIII. 分区与命名(partition/layout)


IX. 清单与溯源(manifest)


X. 校验与一致性


XI. SLI/SLO 与预算


XII. 安全、治理与留存


XIII. 执行流程 Mx-7(入湖)


XIV. 接口绑定(I80-8 与关联)


XV. 示例配置(建议值)


XVI. 互锁与跨卷引用


版权与许可:除另有说明外,《能量丝理论》(含文本、图表、插图、符号与公式)的著作权由作者(屠广林)享有。
许可方式(CC BY 4.0):在注明作者与来源的前提下,允许复制、转载、节选、改编与再分发。
署名格式(建议):作者:屠广林|作品:《能量丝理论》|来源:energyfilament.org|许可证:CC BY 4.0
验证召集: 作者独立自费、无雇主无资助;下一阶段将优先在最愿意公开讨论、公开复现、公开挑错的环境中推进落地,不限国家。欢迎各国媒体与同行抓住窗口组织验证,并与我们联系。
版本信息: 首次发布:2025-11-11 | 当前版本:v6.0+5.05