spark 3.0.0源码环境搭建

环境

Spark版本:3.0.0

java版本:1.8

scala版本:2.12.19

Maven版本:3.8.1

编译spark

将spark-3.0.0的源码导入到idea中

执行mvn clean package -Phive -Phive-thriftserver -Pyarn -DskipTests

执行sparksql示例类SparkSQLExample

运行成功

遇到的问题

缺少parse包的类

parse包的类是ANTLR工具生成的,确认idea的插件已经安装了。

找到sql包下面的SqlBase.g4文件,右键执行生成文件。最后生成的文件在gen目录下,创建一个新的包org.apache.spark.sql.catalyst.parser,将生成的文件都复制到这个包下面。

scala.reflect包的类缺失

在spark-example模块的依赖加上scala-reflect的jar包

在运行界面上,选中'将带有provided依赖加入路径'

没有spark版本文件

spark版本文件是spark-build-info.sh文件生成的

我们可以手动在创建spark-version-info.properties文件,写上版本

Master URL没有指定

代码中加上master的配置

ANTLR版本不对

在对应plugin中找到插件主页。

在主页中找到对应版本的插件下载

手动安装下载的插件

相关推荐
IvanCodes27 分钟前
六、Hive 分桶
大数据·hive
依年南台28 分钟前
Spark处理过程-转换算子和行动算子
大数据·ajax·spark
Freedom℡31 分钟前
Spark,集群搭建之Yarn模式
spark
中电金信41 分钟前
重构金融数智化产业版图:中电金信“链主”之道
大数据·人工智能
七七-d1 小时前
配置Hadoop集群-上传文件
大数据·hadoop·eclipse
信徒_1 小时前
Kafka topic 中的 partition 数据倾斜问题
分布式·kafka
Paraverse_徐志斌1 小时前
Kafka 如何保证消息顺序性
分布式·中间件·kafka·消息队列
心仪悦悦3 小时前
Spark缓存
大数据·缓存·spark
我叫珂蛋儿吖3 小时前
[redis进阶六]详解redis作为缓存&&分布式锁
运维·c语言·数据库·c++·redis·分布式·缓存
lix的小鱼3 小时前
安装Hadoop并运行WordCount程序
大数据·linux·hadoop