谁才是多快好省的数据分析选择:SelectDB vs. ClickHouse vs. Snowflake

在数据分析技术加速迭代的浪潮中,ClickHouse 社区发起的 "来和我一起挑战吧" 性能测试活动,为行业构建了一个聚焦核心能力的竞技舞台。这不仅是对各引擎处理效能的实战校验,更是推动技术升级与行业标准完善的关键契机。

作为深耕数据分析领域多年、以技术突破为核心驱动力的 Apache Doris,始终积极投身开源生态建设。面对这场兼具挑战性与建设性的行业盛事,Apache Doris 绝非旁观者 ------ 我们深知,每一次同台竞技都是彰显性能实力的试金石。因此,Doris 将以最优配置全力应战,将多年来在查询优化、存储引擎、并发处理等核心领域的技术积淀,转化为实打实的性能表现。

通过在大数据量下,多种复杂查询的 Benchmark,可以发现无论是简单的 Coffee Bench Join 场景,还是贴近生产的复杂 TPC-H/TPC-DS 测试,Apache Doris 都能展现出碾压级的性能优势:在满足 OLAP 分析需求的前提下,其性能与成本的综合性价比,相较 Snowflake 和 ClickHouse 高出 5-10 倍以上。 这种极致的性能体验,足以让等待咖啡的片刻,就能轻松完成复杂的数据运算 ------ 用速度与效率,重新定义 OLAP 场景的性能标准,为行业基准测试注入更具参考价值的 "性能样本"。

详细的测试报告如下:

测试说明

本次测试我们主要测试了 Apache Doris,ClickHouse,Snowflake 3 款产品,未来也会测试更多的产品,整理到报告中。3 个产品的配置如下:

  • Apache Doris 使用托管的 SelectDB Cloud 服务。配置为 4 个计算节点,每个节点 16c,128g 内存,在下方性能图表中使用的标签格式为:Doris 4n_16c_128g 来表示 Doris。另外一种配置是 30 个计算节点,每个节点 16c,128g 内存。
  • ClickHouse 使用 ClickHouse Cloud 云上的 25.4 版本。配置为 2 个计算节点,每个节点是 30c,120g,在下方性能图表中使用的标签格式为:ClickHouse 2n_30c_120g 来表示。另外一种配置是 16 个计算节点,每个节点 30c,120g。
  • Snowflake 使用 gen2 版本,配置有 small,medium,large 3 个机型,分别使用 Snowflake small_gen2,Snowflake medium_gen2,Snowflake large_gen2 三个标签来表示。

测试的度量指标包括总运行时间(Total Running Time)与总成本(Total Cost),通过前者可评估各产品的性能表现,借助后者能掌握其整体成本,二者结合可为用户的技术选型提供兼具性能与成本维度的性价比参考。

Coffeeshop Benchmark

在 ClickHouse 社区发起的性能挑战中,使用的是模拟全国咖啡连锁订单数据,所以我们暂时把这个测试称为 Coffeeshop Bench,它包括三张表:

  • Sales:订单事实表
  • Products:产品维度表
  • Locations:门店/位置维度表

总共包含 17 条 SQL 查询,其中大多数涉及事实表与一个或两个维度表的 join,所有查询按顺序依次执行,每条查询会跑 5 次,并选取最快的一次作为最终的性能。这个测试数据集的规模有 7.21 亿行,14 亿行,72 亿行 3 种规模,我们分别对 3 款产品做了 3 个数据规模下的测试。

7.21 亿行数据规模

在 7.21 亿行数据的规模下 ,查询性能比 ClickHouse 快了 3 倍多 ,比 Snowflake 快 6 倍。 在 3 个产品中,Doris 所有的 Query 都是最快的。成本上,Doris 的成本是 ClickHouse 的三分之一,是 Snowflake 的五分之一。

14 亿行数据规模

在 14 亿行数据的规模下,Doris 的查询性能比 ClickHouse 快了 2.5 倍,比 Snowflake 快 3 倍。在这个测试中,Snowflake 使用了 Medium 配置,所以在总成本略有上升,Snowflake 的成本是 Doris 的 5 倍。ClickHouse 的成本仍然是 Doris 的 2.5 倍。从单条语句的查询性能上看,17 条查询中有 16 条 Doris 都是最快的。

72 亿行数据规模

在 72 亿行数据的规模下 ,比 ClickHouse 略快一点,比 Snowflake 快 8 倍 。 通过分析数据发现,实际是 Q16 显著的拖慢整体的查询的耗时(对于这个查询我们也发现了一个 Apache Doris 正在进行的关于数据倾斜的优化点),如果剔除它,Doris 的性能表现依旧是 2 倍领先ClickHouse,17 条查询中有 14 条 Doris 是最快的,所以 Doris 依然是又快又省的最佳选择。

Coffeeshop Bench 仅涉及 2-3 张表的 join 操作,通过对比 Doris 的线上真实业务场景,我们发现这个测试过于简单了。在用户的实际应用里,数据模型往往错综复杂,查询场景也更为多样,可能涉及多张表的关联、多层嵌套的子查询、复杂的聚合计算等。如果仅以这样简单的测试来衡量数据库的性能,很难全面反映其在真实业务中的表现。为了更贴近用户的真实场景,探究各个数据库在面对复杂查询时能否依然保持高效的性能,我们必须提高 Benchmark 的复杂程度。

基于此,我们进一步开展了 TPCH/TPCDS 100G 的测试,通过这些包含更多表关联、更复杂业务逻辑的基准测试,细致观察 Apache Doris 与其他数据分析引擎在高复杂度场景下的性能表现,以此来更全面、客观地验证各引擎的技术实力,为用户在实际业务中选择合适的数据分析工具提供更有价值的参考。

TPC-H

这是一个最为流行,OLAP 的基准性能测试,用于模拟批发供应商的数据查询。数据以第三范式表示形式存储,在查询运行时需要最多 8 张表的连接操作。它执行高度复杂的查询,查询关键的业务数据,更为贴合用户实际复杂的现实场景,最大的表有 6 亿行数据,总共 8.67 亿行数据。

测试结果如下:

注:表头顺序按查询总耗时排序。

在 SF100 的 规模下 ,以总运行时间作为指标,Doris 比 Snowflake 快 6 倍 ,比 ClickHouse 快 14 倍(由于 Q19-22 ClickHouse 存在无法执行的情况,所以在总时长计算时,按照 0 来处理) 。大多数查询 Doris 都轻松在 0.5 秒内 跑完,无论是对于 Snowflake,ClickHouse 都能快上 5 到 10 倍。 反观 ClickHouse,不仅无法完整跑完 22 个 TPCH 的查询,仅仅看它够完成的查询中,耗时也是三个产品之中最高的(ClickHouse 的测试是基于 ClickHouse Cloud 云上的 25.4 的版本,SQL 语句来自于官方改写后的 SQL:ClickHouse.com/docs/gettin... Snowflake 相比,Doris 仅需 10 分之一的价格,跑出了快于 Snowflake 5 倍的性能表现,体现了 50 倍的性价比

TPC-DS

TPCH 聚焦传统 OLAP 场景,侧重模拟订单处理等简单商务分析,采用星型模型,查询多为基础聚合和连接,适合评估数据库基础 OLAP 能力;而 TPC-DS 面向零售业等更复杂的决策支持,强调真实业务场景的复杂性,采用雪花型模型含 24 张表,表间关系更复杂且维度层级更深,查询包含更多子查询、窗口函数等复杂操作,更适合测试数据库在复杂决策支持场景下的性能,也适合评估复杂 ETL 场景下的性能。TPC-DS 的测试集由 24 个表组成(包括 7 个事实表和 17 个维度表),同样提供了各种数据集大小来测试不同的缩放因子,选取了 TPCDS SF100G 的数量级,它最大的表有 2.89 亿行数据,总共 9.87 亿数据。

注:表头顺序按查询总耗时排序。

对于更为复杂的 TPC-DS,从总运行时间看 Doris 比 Snowflake 快 30%,但是 Snowflake 的成本是 Doris 的 4 倍 。 反观 ClickHouse 它有 20%的 Query 无法运行,剩下运行出结果的 Query 的总共运行时间是 1681s,比 Doris 慢了快 30 倍,比 Snowflake 慢了 16 倍。在 99 条 Query 中 80%以上的 SQL,Doris 的性能表现都是三者之中最优的,这展现了 Doris 在复杂查询上极佳的分析体验。

总结与展望

在本次覆盖多维度场景的性能测试中,各类 OLAP 产品在性能释放与成本控制的综合表现上呈现出显著分化,尤其在不同复杂度的业务场景中,优势差异更为凸显。

在以 Coffee Bench 为代表的简单 JOIN 场景中,Apache Doris 与 ClickHouse 均展现出远超 Snowflake 的处理效率 ------ 两者凭借轻量化架构与针对性优化,在数据关联运算中实现了更快速的响应,显著降低了基础分析场景的时间成本,形成对传统云原生数据仓库的明显性能压制。

而进入复杂查询场景 (如 TPC-H/TPC-DS 中的多表关联、嵌套子查询等),产品间的能力鸿沟进一步拉大:Apache Doris 与 Snowflake 凭借成熟的查询优化器与复杂 SQL 解析引擎,依然能保持高效稳定的性能输出,轻松应对高复杂度的业务分析需求;相比之下,ClickHouse 在处理多表关联、多层子查询等复杂逻辑时,其性能表现与前两者存在几十倍的差距,查询延迟与资源消耗均显著增加。这意味着,若业务场景涉及频繁的复杂多表运算,选择 ClickHouse 需进行更为审慎的技术评估,避免因架构局限性影响业务效率。

综合来看,Apache Doris 在全场景中展现出了最均衡且突出的综合优势 :无论是简单 JOIN 场景的高效响应,还是复杂查询场景的稳定输出,其性能表现始终处于第一梯队;更关键的是,在实现同等性能的前提下,Doris 的硬件投入成本是同类产品的五分之一到十分之一,真正实现了 "极致性能" 与 "成本可控" 的双重突破,完美适配从简单分析到复杂业务决策的全链路 OLAP 需求。

开源社区的性能赛跑始终是技术突破的核心驱动力,每一次测试都让我们对 OLAP 的性能边界有了更深刻的探索。本次测试仅是 Apache Doris 性能实力的初步展现,后续社区将持续推出覆盖更多业务场景、更高复杂度、更极限数据规模的测试验证,与行业同仁共同挖掘 OLAP 技术的性能潜能,推动数据分析效率迈向新的高度。

相关推荐
CoderJia程序员甲4 小时前
GitHub 热榜项目 - 日榜(2025-08-21)
ai·开源·github·ai编程
京东零售技术6 小时前
手把手带你用 OxyGent 实现智能体的构建、部署与进化
开源
skywalk816311 小时前
设计简洁的Ansible:目前非常流行的开源配置管理和自动化工具
开源·自动化·ansible
猫头虎11 小时前
开源协议区别与限制详解:Fork、改名、再发布是否合法?(MIT、Apache、GPL、BSD、SSPL、BSL)
git·开源·github·apache·开源软件·开源协议·gitcode
Hello123网站12 小时前
Qwen2-阿里云最新发布的通义千问开源大模型
阿里云·开源·云计算·ai工具
xcLeigh13 小时前
文心一言4.5开源模型实战:ERNIE-4.5-0.3B轻量化部署与效能突破
人工智能·开源·大模型·文心一言·ernie·轻量化部署
NocoBase1 天前
10 个开源工具,快速构建数据应用
数据库·低代码·开源
云存储小精灵1 天前
Dify x 腾讯云 COS MCP:自然语言解锁智能数据处理,零代码构建 AI 新世界
前端·开源