SparkSQL源码分析系列02-编译环境准备

本文主要描述一些阅读Spark源码环境的准备工作,会涉及到源码编译,插件安装等。

1. 克隆代码。

打开IDEA,在Git下的Clone中,输入 https://github.com/apache/spark ,克隆代码到本地,CheckOut到目标版本Spark3.4

2. 安装maven。

版本按照pom文件指定的版本安装,在IDEA中配置安装的路径。

3. 为IDEA安装 ANTLR 和 Scala 插件
4. 测试ANTLR的词法语法解析功能

在Spark源码项目中,搜索 SqlBaseParser.g4 文件,在 singleStatement 上右键,找到"Test Rule singleStatement",在底部对话框中输入SQL语句,观察解析出的抽象语法树。


注意:SQL语句一定要大写。

5. 编译源码

由于我们只做源码阅读,不做打包,所以只需要通过 compile 就行,package貌似报错更多,不容易打包成功,但是 compile 相对容易。多次 compile 尝试,直到 build success。

6. 运行测试类

在.../spark_branch3_4/sql/core/src/test/scala/org/apache/spark/sql目录下,打开 SQLQuerySuite 文件,在任意一个test模块上右键、运行,观察是否正常输出。

测试案例运行成功。至此,代表源码阅读环境准备完毕。

相关推荐
jerryinwuhan3 小时前
Spark数据分析1_环境配置
大数据·数据分析·spark
我要用代码向我喜欢的女孩表白6 小时前
spark介绍
大数据·分布式·spark
大大大大晴天1 天前
Hudi生产问题排障-insert overwrite 路径不存在
大数据·spark
Light601 天前
SPARK View:从“AI手工作坊”到“软件工业革命
大数据·人工智能·spark
潘达斯奈基~2 天前
Spark踩坑:如何优化pandas_udf中的多维数组传输效率
大数据·spark·pandas
最初的↘那颗心2 天前
Spark Job 调度机制拆解:从 Action 算子到 Task 执行
大数据·spark·分布式计算
尋有緣2 天前
Spark SQL 调优
大数据·sql·spark
十月南城3 天前
实时数据平台的价值链——数据采集、加工、存储、查询与消费的协同效应与ROI评估
数据库·数据仓库·hive·hadoop·spark
伟大的大威4 天前
NVIDIA DGX Spark (Blackwell GB10) 双机 196B Step 3.5 Flash 大模型部署完整实录
分布式·spark·nvidia
petrel20154 天前
【Spark】深度魔改 Spark 源码:打破静态限制,实现真正的运行时动态扩缩容
大数据·分布式·spark