spark 3.0.0源码环境搭建

环境

Spark版本:3.0.0

java版本:1.8

scala版本:2.12.19

Maven版本:3.8.1

编译spark

将spark-3.0.0的源码导入到idea中

执行mvn clean package -Phive -Phive-thriftserver -Pyarn -DskipTests

执行sparksql示例类SparkSQLExample

运行成功

遇到的问题

缺少parse包的类

parse包的类是ANTLR工具生成的,确认idea的插件已经安装了。

找到sql包下面的SqlBase.g4文件,右键执行生成文件。最后生成的文件在gen目录下,创建一个新的包org.apache.spark.sql.catalyst.parser,将生成的文件都复制到这个包下面。

scala.reflect包的类缺失

在spark-example模块的依赖加上scala-reflect的jar包

在运行界面上,选中'将带有provided依赖加入路径'

没有spark版本文件

spark版本文件是spark-build-info.sh文件生成的

我们可以手动在创建spark-version-info.properties文件,写上版本

Master URL没有指定

代码中加上master的配置

ANTLR版本不对

在对应plugin中找到插件主页。

在主页中找到对应版本的插件下载

手动安装下载的插件

相关推荐
livemetee4 小时前
Flink2.0学习笔记:使用HikariCP 自定义sink实现数据库连接池化
大数据·数据库·笔记·学习·flink
人大博士的交易之路4 小时前
龙虎榜——20250822
大数据·数据挖掘·数据分析·缠中说禅·龙虎榜·道琼斯结构
小陈永不服输13 小时前
Windows下RabbitMQ完整安装指南
windows·分布式·rabbitmq
青云交14 小时前
Java 大视界 -- Java 大数据在智能安防人脸识别系统中的活体检测与防伪技术应用
java·大数据·生成对抗网络·人脸识别·智能安防·防伪技术·活体测试
chenglin01614 小时前
ES_索引模板
大数据·elasticsearch·jenkins
byte轻骑兵16 小时前
大数据时代时序数据库选型指南:深度解析与 Apache IoTDB 实践
大数据·apache·时序数据库
NPE~17 小时前
[docker/大数据]Spark快速入门
大数据·分布式·docker·spark·教程
的小姐姐18 小时前
AI与IIOT如何重新定义设备维护系统?_璞华大数据Hawkeye平台
大数据·人工智能
TDengine (老段)19 小时前
TDengine IDMP 最佳实践
大数据·数据库·物联网·ai·时序数据库·tdengine·涛思数据
Java小混子19 小时前
【Redis】缓存和分布式锁
redis·分布式·缓存