Apache Drill:一款开源的分布式SQL查询引擎

Apache Drill 是一款开源分布式 SQL 查询和分析引擎,专为半结构化的大数据和云存储进行了优化,能够提供低延迟的交互式数据分析。

Apache Drill 项目主要基于 Java 语言开发,遵循 Apache 2.0 开源协议,代码托管在 GitHub:

https://github.com/apache/drill

功能特性

  • 分布式架构:核心服务 Drillbit 负责接收客户端请求、处理查询并将结果返回给客户端。一个 Drill 集群可以由多个 Drillbit 节点组成,它们通过 ZooKeeper 来协调集群成员管理和健康检查。
  • 高性能:Drill 基于分布式执行引擎,同时采用列式执行、矢量化、运行时编译以及乐观和管道执行模型等优化技术实现了大数据集的高效实时查询。
  • 支持 SQL 标准:Drill 支持 ANSI SQL 语法,降低了学习成本。
  • 动态模式发现:Drill 在处理数据时可以利用自描述的半结构化/嵌套数据格式(例如 Parquet、JSON、AVRO 等)中内含的信息,在读取数据的同时动态理解其结构,无需依赖中央元数据库。
  • 多源联合查询:Drill 通过可配置的存储插件来连接各种数据源,包括关系型数据库(PostgreSQL、MySQL、Oracle、SQL Server, Apache Derby、H2 等)、Hadoop、HBase、Hive、MongoDB、Kafka、Google Sheets、ElasticSearch、云存储(例如 Amazon S3)及本地文件系统等。同时允许在单个查询中关联来自不同数据源的数据。
  • 工具集成:Drill 通过JDBC/ODBC 驱动为业务人员、分析师等提供了各种 BI 分析工具集成,例如 Tableau、SAS、Excel 等。开发人员也可以利用 REST API 在应用程序中集成 Drill 功能。
  • 部署模式:Drill 支持嵌入模式(单机)和分布式部署模式,满足不同应用场景需求。

下载安装

Apache Drill 提供了多种部署方式,使用 Docker 进行部署体验的命令如下:

复制代码
docker run -it --name drill \
	-p 8047:8047 \		# web and REST
	-p 31010:31010 \	# JDBC
	apache/drill

执行成功之后会自动显示 SQLLine 命令行工具:

复制代码
Apache Drill 1.22.0
"Data is the new oil. Ready to Drill some?"
apache drill> 

直接输入查询语句:

sql 复制代码
apache drill> SELECT version FROM sys.version;
+---------+
| version |
+---------+
| 1.22.0  |
+---------+
1 row selected (1.191 seconds)

或者也可以通过以下地址访问 Web UI:

http://localhost:8047/

官方文档:

https://drill.apache.org/docs/getting-started/

总结

Apache Drill 是一个功能强大且灵活的 SQL 查询引擎,特别适合处理半结构化数据和多数据源联合查询。

相关推荐
阿里云大数据AI技术1 小时前
用 SQL 调大模型?Hologres + 百炼,让数据开发直接“对话”AI
sql·llm
字节跳动数据平台8 小时前
代码量减少 70%、GPU 利用率达 95%:火山引擎多模态数据湖如何释放模思智能的算法生产力
大数据
得物技术9 小时前
深入剖析Spark UI界面:参数与界面详解|得物技术
大数据·后端·spark
武子康10 小时前
大数据-238 离线数仓 - 广告业务 Hive分析实战:ADS 点击率、购买率与 Top100 排名避坑
大数据·后端·apache hive
武子康1 天前
大数据-237 离线数仓 - Hive 广告业务实战:ODS→DWD 事件解析、广告明细与转化分析落地
大数据·后端·apache hive
大大大大晴天1 天前
Flink生产问题排障-Kryo serializer scala extensions are not available
大数据·flink
武子康3 天前
大数据-236 离线数仓 - 会员指标验证、DataX 导出与广告业务 ODS/DWD/ADS 全流程
大数据·后端·apache hive
武子康4 天前
大数据-235 离线数仓 - 实战:Flume+HDFS+Hive 搭建 ODS/DWD/DWS/ADS 会员分析链路
大数据·后端·apache hive
DianSan_ERP5 天前
电商API接口全链路监控:构建坚不可摧的线上运维防线
大数据·运维·网络·人工智能·git·servlet
够快云库5 天前
能源行业非结构化数据治理实战:从数据沼泽到智能资产
大数据·人工智能·机器学习·企业文件安全