07-EFT.WP.Core.Threads v1.0 | 第6章资源配额与隔离 | 能量丝理论

第6章资源配额与隔离

I. 范围与目标

II. 名词与变量

预算与负载：R_cpu（vCPU 数或 shares）、R_mem（bytes）、R_io（MB/s 或 IOPS）。
占用与利用：u_cpu、u_mem、u_io，rho_cpu = ∑ u_cpu / capacity_cpu，rho_io = lambda_io / mu_io。
隔离域：iso_dom（cgroup/namespace/cpuset）、affinity（CPU/NUMA 亲和）、quota（硬配额）、burst（短时超发）。
线程/图：thr、pid_thr、gid、prio、K_thr、w(v)、c(e)、crit(G)。
安全余量：headroom ∈ (0,1)，reserve_mem，reserve_io。

III. 公设 P76（资源与隔离）

IV. 最小方程 S76（容量与上界）

S76-1（CPU 头寸）：rho_cpu = ( ∑_i u_cpu_i ) / capacity_cpu <= 1 - headroom。
S76-2（IO 稳态）：rho_io = lambda_io / mu_io <= 1 - headroom。
S76-3（内存无抖）：∑_i WSS_i + cache_working <= R_mem_total - reserve_mem。
S76-4（共享核上的节点时长下界）：T_node(v) >= cycles(v) / ( share(v) * freq_eff )，其中 share(v) = R_cpu(v) / ∑_co_scheduled R_cpu。
S76-5（图级完工时间与资源）：T_make(G) >= ∑_{v ∈ crit(G)} T_node(v) + ∑_{e ∈ crit(G)} c(e)。
S76-6（NUMA 跨域惩罚近似）：lat_remote approx lat_local + delta_numa，delta_numa 随 QPI/UPI 拓扑给定。

V. 资源域模型与参数化

CPU
- R_cpu 以 shares 或 vCPU 数标注；prio 决定在同域内的分配序。
- 建议 headroom_cpu ∈ [0.1, 0.3]；控制面与 crit(G) 采用固定核或高 share。
- 合并短任务：批量化 w(v) 过小的节点以降低上下文切换开销。
内存
- 申报 WSS：WSS = P95(working_set_samples)；安全系数常取 safety_factor ∈ [1.2,1.5]。
- 高水位与 OOM 策略：R_mem_high < R_mem_max；越界先触发节流与降级，再逐步回收缓存，最后中止最边缘线程。
IO
- 将 R_io 分为吞吐与 IOPS 两维：R_io = {MBps, IOPS}；优先以 IOPS 限制小块抖动。
- 写放大控制：顺序化 flush、合并小写、启用批 ACK；对日志路径单独设域。

VI. 隔离域与拓扑

逻辑分层
- iso_dom(tenant) → iso_dom(gid) → iso_dom(thr)；分别绑定 cgroup, cpuset, io.max。
- 每层都有独立 quota 与 burst；跨层累计严格不超过上层。
亲和与 NUMA
- affinity 固定在同一 NUMA 节点上；R_mem 对应节点预留；跨节点访问仅作为回退。
- 对延时敏感链路设定 affinity = dedicated_cores，并禁用频繁迁移。

VII. 调度与入阈（与 I70-2）

入队条件
admit(gid) 当且仅当 rho_cpu_pred < 1 - headroom_cpu 且 rho_io_pred < 1 - headroom_io 且 R_mem_free >= R_mem_req。
队列整形
按 prio 与 share 执行加权公平；K_thr 上限由 R_cpu 与 rho_* 联合裁决。
关键路径优先
crit(G) 上节点提升权重 w_crit_boost，确保 S76-5 的下界可逼近。

VIII. 配额执行算法与策略

IX. 可观测性与告警（与 I70-7/I70-8）

指标
- Threads.cpu.rho, Threads.io.rho, Threads.mem.wss, Threads.mem.oom_events
- Threads.quota.throttle_ms, Threads.burst.active, Threads.numa.remote_ratio
门限
- rho_cpu > 1 - headroom 持续 SLA_window/10 触发告警与自愈。
- remote_ratio > 5% 于 crit(G) 触发亲和重排。
合同断言
- {"type":"capacity_headroom","rho_cpu_le":1-headroom}
- {"type":"wss_fit","WSS_le":R_mem/safety_factor}
- {"type":"isolation","no_cross_tenant_contention":true}

X. 接口绑定（与 I70-5/I70-1/I70-2/I70-6）

set_quota(scope:str, R:dict) -> None
形如 {"cpu":2,"mem":"8Gi","io":{"MBps":50,"IOPS":2000}}；成功即创建/更新 iso_dom(scope)。
reserve(scope:str, R:dict) -> Ticket / release(ticket) -> None
运行期临时预留，受 burst 与 headroom 约束。
set_affinity(thr, affinity:list[int]) 与 set_priority(thr, prio:int)
关键核与关键线程绑定；对 gid 内部设优先级天花板避免反转。
rate_limiter 联动
当 throttle_ms 上升，自动降低发送侧 QPS 以稳定 rho_*。

XI. NUMA 最佳实践

XII. 故障围堵与恢复

XIII. 运行流程 Mx-5（上线步骤）

XIV. 交付件与验收标准