spark 3.0.0源码环境搭建

环境

Spark版本:3.0.0

java版本:1.8

scala版本:2.12.19

Maven版本:3.8.1

编译spark

将spark-3.0.0的源码导入到idea中

执行mvn clean package -Phive -Phive-thriftserver -Pyarn -DskipTests

执行sparksql示例类SparkSQLExample

运行成功

遇到的问题

缺少parse包的类

parse包的类是ANTLR工具生成的,确认idea的插件已经安装了。

找到sql包下面的SqlBase.g4文件,右键执行生成文件。最后生成的文件在gen目录下,创建一个新的包org.apache.spark.sql.catalyst.parser,将生成的文件都复制到这个包下面。

scala.reflect包的类缺失

在spark-example模块的依赖加上scala-reflect的jar包

在运行界面上,选中'将带有provided依赖加入路径'

没有spark版本文件

spark版本文件是spark-build-info.sh文件生成的

我们可以手动在创建spark-version-info.properties文件,写上版本

Master URL没有指定

代码中加上master的配置

ANTLR版本不对

在对应plugin中找到插件主页。

在主页中找到对应版本的插件下载

手动安装下载的插件

相关推荐
无心水4 分钟前
【分布式利器:腾讯TSF】8、Service Mesh云原生演进:Java应用零侵入接入腾讯TSF全解析
分布式·云原生·envoy·service_mesh·service mesh·分布式利器·腾讯tsf
中科天工8 分钟前
怎么通过自动化包装系统优化企业整体运作?
大数据·人工智能·智能
说私域11 分钟前
基于AI智能名片链动2+1模式S2B2C商城小程序的企业运营能力提升策略研究
大数据·人工智能·小程序·开源·流量运营
利刃大大13 分钟前
【RabbitMQ】详细使用:工作队列 && 发布/订阅模式 && 路由模式 && 通配符模式 && RPC模式 && 发布确认机制
分布式·rpc·消息队列·rabbitmq
aigcapi14 分钟前
AI 获客系统哪个好?矩阵系统哪个好?2026 客观测评 TOP4
大数据·人工智能·矩阵
小宇的天下15 分钟前
Calibre 尺寸检查操作
大数据
羑悻的小杀马特18 分钟前
etcd实战指南:从安装集群到C++封装,解锁分布式服务治理的“钥匙”
c++·分布式·etcd·集群
默默在路上21 分钟前
CentOS Stream 9 安装hadoop单机伪分布式模式
大数据·hadoop·分布式
码界奇点23 分钟前
基于Spring与Netty的分布式配置管理系统设计与实现
java·分布式·spring·毕业设计·源代码管理
北京盛世宏博27 分钟前
数据可追溯 + 加密传输:以太网温湿度变送器守护涉密档案安全
大数据·运维·人工智能·档案温湿度