doris的优化器策略介绍

梦里不知身是客112025-12-22 11:13

Doris（Apache Doris）的优化器采用基于成本的优化策略（Cost-Based Optimization, CBO），结合规则优化（Rule-Based Optimization, RBO），以生成高效的分布式执行计划。以下是其核心优化策略：

采用CBO（基于代价优化）、RBO（基于规则优化）和HBO（基于历史优化）相结合的优化策略。RBO支持常量折叠、子查询重写和谓词下推等优化，CBO支持Join Reorder等优化，HBO能够基于历史查询信息推荐最优执行计划。

1. 基于代价的优化（CBO）

统计信息收集 ：
通过收集表、列、分区的基数（Cardinality）、数据分布直方图等统计信息，评估不同执行计划的代价。 $\\text{代价} = f(\\text{CPU}, \\text{内存}, \\text{网络IO}, \\text{磁盘IO})$
代价模型 ：
综合计算节点资源消耗、数据倾斜等因素，选择预估代价最低的执行计划。

2. 查询重写（Query Rewrite）

谓词下推（Predicate Pushdown） ：
将过滤条件（如 WHERE 子句）提前至存储层执行，减少数据传输量。
投影下推（Projection Pushdown） ：
仅读取查询所需的列，避免全列扫描。
子查询优化 ：
将相关子查询转换为 JOIN 操作，或利用物化视图加速计算。

3. 分布式执行计划优化

数据本地化（Data Locality） ：
优先将计算任务调度到存储数据的节点，减少网络传输。
并行执行（Parallelism） ：
对 JOIN、AGGREGATE 等操作拆分到多个节点并行处理。
动态分区裁剪 ：
根据查询条件跳过无关分区（如时间分区），仅扫描必要数据。

4. 索引策略

智能索引（Smart Index） ：
自动为高频过滤字段（如主键）创建索引，加速点查。
前缀索引（Prefix Index） ：
对复合查询条件（如 WHERE col1=? AND col2=?）建立联合索引。

5. 列式存储优化

列裁剪（Column Pruning） ：
仅读取查询涉及的列，减少 I/O 开销。
延迟物化（Late Materialization） ：
延迟行数据的拼接，在过滤后生成完整行。

6. 资源与并发控制

资源组（Resource Group） ：
为不同任务分配 CPU、内存配额，避免资源抢占。
查询优先级 ：
支持高优先级查询插队执行，保障关键任务。

7. 执行引擎优化

向量化引擎（Vectorized Execution） ：
批量处理数据，减少函数调用开销。
Pipeline 并行 ：
将算子拆分为流水线阶段，提升吞吐量。

总结

Doris 的优化器通过统计信息驱动代价评估、分布式计划优化、存储层协同等策略，显著提升复杂查询效率。用户可通过 EXPLAIN 命令查看执行计划，并结合统计信息收集（如 ANALYZE TABLE）确保优化效果。

上一篇：整体设计定稿之8 讨论过程的两套整理工具的讨论之1（豆包助手）

下一篇：【QT】【FFmpeg】 Qt 中FFmpeg环境搭建以及D__STDC_FORMAT_MACROS、PRId64解答

热门推荐

01如何新建文件夹？电脑新建文件夹的4种方法 02GitHub 镜像站点 032026年7月AI圈大地震：GPT-5.6被政府限制、Claude入驻Slack、Anthropic自研芯片 04AI科技热点日报 | 2026年07月01日 05国内可直接用、免费额度/永久免费的大模型API清单（含 SiliconFlow、火山、阿里、智谱、百度、Kimi、DeepSeek、DMXAPI 等）06AI 编程 IDE 全景解析 2026：Agent 全面接管开发链路 07幻兽帕鲁 - 服务器管理员权限与 GM 命令完全指南 082026 国产 AI 大模型横评：DeepSeek、通义千问、Kimi、文心一言、星火、豆包谁更能打？09微信历史版本含下载地址（ Windows PC | 安卓 | MAC ）及设置微信不更新 102026 年 AI 大模型 & AI 编程工具实战全总结