用 Rust 做分布式查询引擎之前,我先写了一个最小执行 POC

最近在评估一个 分布式查询引擎(Distributed Query Engine) 的 Rust 项目需求,核心目标很明确:

  • 多节点执行

  • 低延迟、高吞吐

  • 数据 Shuffle / Partition

  • 长期可维护

在真正动手写系统之前,我没有急着堆功能,而是先做了一件很基础、但很关键的事:

写一个最小可运行的查询执行 POC,验证执行模型本身是否合理。


一、为什么选择 Rust 做这个 POC

在分布式查询引擎这种系统里,语言选择并不是偏好问题,而是工程约束。

选择 Rust,主要基于三个现实考虑:

1. 并发安全是硬需求

查询执行层天然是并发系统,多 worker 同时运行算子,如果内存模型不清晰,稳定性会长期被消耗。

Rust 把很多问题提前到了编译期。

2. async 对执行层非常重要

查询执行本质上是 IO + 计算 + 中间结果流转的组合,async 让这些行为在代码结构上是显式的。

3. 维护成本可控

查询引擎不是一次性代码,而是会不断增加算子、优化规则的长期系统。


二、这个 POC 刻意不"完整"

这个 POC 有意不实现很多常见模块

  • 没有 SQL Parser

  • 没有成本优化器

  • 没有网络 RPC

  • 没有完整容错机制

原因很简单:
在 POC 阶段,这些都不是决定性问题。

我更关心的是:

  1. 查询是否以 执行计划(Execution Plan) 的形式存在

  2. 执行是否能自然拆分到多个 worker

  3. 中间数据是否必须经过 Shuffle


三、最小查询执行模型

在 POC 中,查询不是字符串,而是直接建模成执行节点:

复制代码
enum Query {
    Scan { source: String },
    Filter { predicate: String },
    Aggregate { key: String, agg: String },
}

执行流程被明确限制为:

复制代码
Scan -> Filter -> Shuffle -> Aggregate

这样可以在最小范围内暴露执行阶段的问题。


四、最小"分布式"执行方式

为了避免过早引入网络复杂度,这个 POC 使用了:

  • 一个 Coordinator

  • 多个 Worker(async task)

  • Channel 传递中间结果

结构如下:

复制代码
Coordinator
   |
   |-- Worker 1: Scan + Filter
   |-- Worker 2: Scan + Filter
   |
   +--> Aggregate

每个 Worker 独立执行算子,中间结果必须返回并参与聚合。


五、Shuffle 是不可省略的步骤

即便在最小 POC 中,Shuffle 也不能省略。

实现方式非常简单:

复制代码
hash(key) % worker_count

但这一过程已经意味着:

  • 数据需要重新分布

  • 执行流程出现同步点

  • 性能与资源问题开始显性化

这也是分布式查询引擎复杂度真正开始的地方。


六、这个 POC 想验证的结论

这个 POC 并不是为了证明"能写查询引擎",而是验证几个基础判断:

  1. 查询引擎的复杂性主要集中在 执行层

  2. Shuffle 是系统级问题,而不是后期优化细节

  3. Rust 在这种系统中是工程选择,而不是噱头


七、POC 刻意不解决的问题

为了避免误解,这个 POC 明确不解决

  • 高可用

  • 完整容错

  • 复杂优化策略

  • 云原生部署

这些问题都应建立在执行模型稳定之后。


八、为什么要先做这个 POC

在分布式查询引擎这类系统中:

如果执行模型一开始就有问题,
后续所有功能都会变成补救。

最小 POC 的意义,只是尽早暴露这些风险。


如果你也在评估或实现类似的分布式查询 / 执行系统,

建议先把 Execution 跑通,再考虑功能扩展。


相关推荐
Pomelo_刘金1 小时前
Rust:所有权系统
rust
Ranger09296 小时前
鸿蒙开发新范式:Gpui
rust·harmonyos
初次攀爬者3 天前
ZooKeeper 实现分布式锁的两种方式
分布式·后端·zookeeper
DongLi013 天前
rustlings 学习笔记 -- exercises/05_vecs
rust
郑州光合科技余经理4 天前
代码展示:PHP搭建海外版外卖系统源码解析
java·开发语言·前端·后端·系统架构·uni-app·php
feifeigo1234 天前
matlab画图工具
开发语言·matlab
dustcell.4 天前
haproxy七层代理
java·开发语言·前端
norlan_jame4 天前
C-PHY与D-PHY差异
c语言·开发语言
多恩Stone4 天前
【C++入门扫盲1】C++ 与 Python:类型、编译器/解释器与 CPU 的关系
开发语言·c++·人工智能·python·算法·3d·aigc
QQ4022054964 天前
Python+django+vue3预制菜半成品配菜平台
开发语言·python·django