TPC-H 基准测试:Databend Cloud 与 Snowflake 对比

快速概览

TPC-H

TPC-H 基准测试是评估决策支持系统的标准,专注于复杂查询和数据维护。在这项分析中,我们使用 TPC-H SF100(SF1 = 600万行)数据集比较了 Databend Cloud 和 Snowflake,该数据集包含 100GB 数据和大约 6 亿行,跨越 22 个查询。

免责声明

TPC 基准测试™ 和 TPC-H™ 是交易处理性能委员会(TPC)的商标。我们的基准测试虽然受到 TPC-H 的启发,但与官方 TPC-H 结果不直接可比。

Snowflake 和 Databend Cloud

  • Snowflake:Snowflake 因其先进的功能而闻名,例如分离存储和计算、按需可扩展计算、数据共享和克隆能力。
  • Databend Cloud :Databend Cloud 提供与 Snowflake 类似的功能,是一个云原生数据仓库,也将存储与计算分离,并根据需要提供可扩展的计算能力。 它是从开源 Databend 项目发展而来,定位为 Snowflake 的现代化、高性价比替代品,特别适合大规模分析。

性能和成本比较

  • 在数据加载方面,Databend 的成本比 Snowflake 低约 67%。
  • 在查询执行方面,Databend 比 Snowflake 约高出 60% 的成本效率。

注意

基准测试中没有进行调优。结果基于 Snowflake 和 Databend Cloud 的默认设置。 记住,不要只是相信我们的话 ------ 我们鼓励您自己运行并验证这些结果。

数据加载基准测试

表名 Snowflake(695s, 成本 $0.77) Databend Cloud(446s, 成本 $0.25) 行数
customer 18.137 13.436 15,000,000
lineitem 477.740 305.812 600,037,902
nation 1.347 0.708 25
orders 103.088 64.323 150,000,000
part 19.908 12.192 20,000,000
partsupp 67.410 45.346 80,000,000
region 0.743 0.725 5
supplier 3.000 3.687 10,000,000
总时间 695s 446s
总成本 $0.77 $0.25
存储大小 20.8GB 24.5GB

查询基准测试:冷启动

查询 Snowflake(总计 207s, 成本 $0.23) Databend Cloud(总计 166s, 成本 $0.09)
TPC-H 1 11.703 8.036
TPC-H 2 4.524 3.786
TPC-H 3 8.908 6.040
TPC-H 4 8.108 4.462
TPC-H 5 9.202 7.014
TPC-H 6 1.237 3.234
TPC-H 7 9.082 7.345
TPC-H 8 10.886 8.976
TPC-H 9 18.152 13.340
TPC-H 10 13.525 12.891
TPC-H 11 2.582 2.183
TPC-H 12 10.099 8.839
TPC-H 13 13.458 7.206
TPC-H 14 8.001 4.612
TPC-H 15 8.737 4.621
TPC-H 16 4.864 1.645
TPC-H 17 5.363 14.315
TPC-H 18 19.971 12.058
TPC-H 19 9.893 12.579
TPC-H 20 8.538 8.836
TPC-H 21 16.439 12.270
TPC-H 22 3.744 1.926
总时间 207s 166s
总成本 $0.23 $0.09

查询基准测试:热启动

查询 Snowflake (总计 138s, 花费 $0.15) Databend Cloud (总计 124s, 花费 $0.07)
TPC-H 1 8.934 7.568
TPC-H 2 3.018 3.125
TPC-H 3 6.089 5.234
TPC-H 4 4.914 3.392
TPC-H 5 5.800 4.857
TPC-H 6 0.891 2.142
TPC-H 7 5.381 4.389
TPC-H 8 5.724 5.887
TPC-H 9 10.283 9.621
TPC-H 10 10.368 8.524
TPC-H 11 1.165 1.364
TPC-H 12 7.052 5.352
TPC-H 13 12.829 6.180
TPC-H 14 3.288 2.725
TPC-H 15 3.475 2.748
TPC-H 16 4.094 1.124
TPC-H 17 4.203 13.757
TPC-H 18 18.583 11.630
TPC-H 19 3.888 7.881
TPC-H 20 6.379 5.797
TPC-H 21 10.287 9.806
TPC-H 22 1.573 1.122
总时间 138s 124s
总花费 $0.15 $0.07

复现基准测试

您可以按照以下步骤复现基准测试。

基准测试环境

Snowflake 和 Databend Cloud 都在类似条件下进行了测试:

参数 Snowflake Databend Cloud
计算集群大小 小型 小型
vCPU 16 16
价格 $4/小时 $2/小时
AWS 区域 us-east-2 us-east-2
存储 AWS S3 AWS S3
  • TPC-H SF100 数据集,来源于 Amazon Redshift,已经加载到 Databend Cloud 和 Snowflake 中,没有进行任何特定的调优。

基准测试方法

我们对查询执行进行了冷热两轮运行:

  1. 冷运行:在执行查询之前,数据仓库被挂起并恢复。
  2. 热运行:数据仓库没有被挂起,使用本地磁盘缓存。

先决条件

数据加载

  1. Snowflake 数据加载

  2. Databend Cloud 数据加载

TPC-H 查询

  1. Snowflake 查询

  2. Databend Cloud 查询

相关推荐
MM_MS5 分钟前
Halcon控制语句
java·大数据·前端·数据库·人工智能·算法·视觉检测
薛定谔的猫19827 分钟前
LlamaIndex(三) LlamaHub工具集
数据库·mysql·llamahub
小画家~19 分钟前
第四十六: channel 高级使用
java·前端·数据库
晴天¥24 分钟前
了解Oracle中的体系结构
数据库
DemonAvenger31 分钟前
Redis慢查询分析与优化:性能瓶颈排查实战指南
数据库·redis·性能优化
Li_yizYa32 分钟前
Redis-常见数据类型及应用场景
java·数据库·redis
瀚高PG实验室1 小时前
逻辑导入导出(pg_dump/pg_restore)用法2-导入到不同的schema或tablespace
数据库·瀚高数据库
whyfail1 小时前
前端数据存储新选择:IndexedDB与Dexie.js技术指南
前端·javascript·数据库
煎蛋学姐1 小时前
SSM校园快递系统q9061(程序+源码+数据库+调试部署+开发环境)带论文文档1万字以上,文末可获取,系统界面在最后面
数据库·开题报告·java 开发·校园信息化·ssm 框架
元亓亓亓1 小时前
考研408--操作系统--day11--文件管理&逻辑物理结构&目录&存储空间管理
数据库·考研·文件管理·408