spark 3.0.0源码环境搭建

环境

Spark版本:3.0.0

java版本:1.8

scala版本:2.12.19

Maven版本:3.8.1

编译spark

将spark-3.0.0的源码导入到idea中

执行mvn clean package -Phive -Phive-thriftserver -Pyarn -DskipTests

执行sparksql示例类SparkSQLExample

运行成功

遇到的问题

缺少parse包的类

parse包的类是ANTLR工具生成的,确认idea的插件已经安装了。

找到sql包下面的SqlBase.g4文件,右键执行生成文件。最后生成的文件在gen目录下,创建一个新的包org.apache.spark.sql.catalyst.parser,将生成的文件都复制到这个包下面。

scala.reflect包的类缺失

在spark-example模块的依赖加上scala-reflect的jar包

在运行界面上,选中'将带有provided依赖加入路径'

没有spark版本文件

spark版本文件是spark-build-info.sh文件生成的

我们可以手动在创建spark-version-info.properties文件,写上版本

Master URL没有指定

代码中加上master的配置

ANTLR版本不对

在对应plugin中找到插件主页。

在主页中找到对应版本的插件下载

手动安装下载的插件

相关推荐
P.H. Infinity2 小时前
【RabbitMQ】03-交换机
分布式·rabbitmq
龙哥·三年风水4 小时前
群控系统服务端开发模式-应用开发-个人资料
分布式·php·群控系统
昨天今天明天好多天4 小时前
【数据仓库】
大数据
油头少年_w5 小时前
大数据导论及分布式存储HadoopHDFS入门
大数据·hadoop·hdfs
Elastic 中国社区官方博客6 小时前
释放专利力量:Patently 如何利用向量搜索和 NLP 简化协作
大数据·数据库·人工智能·elasticsearch·搜索引擎·自然语言处理
力姆泰克6 小时前
看电动缸是如何提高农机的自动化水平
大数据·运维·服务器·数据库·人工智能·自动化·1024程序员节
力姆泰克6 小时前
力姆泰克电动缸助力农业机械装备,提高农机的自动化水平
大数据·服务器·数据库·人工智能·1024程序员节
QYR市场调研6 小时前
自动化研磨领域的革新者:半自动与自动自磨机的技术突破
大数据·人工智能
funnyZpC6 小时前
quartz集群增强版🎉
java·分布式·开源·集群·定时任务
明达技术7 小时前
工业4.0时代下的分布式IO模块
分布式