Linux下Spark offline安装graphframes包

文章目录

背景

GraphX是Spark中用于图计算的模块. Spark安装包中内置Scala语言的GraphX库, 但是对于Python语言的安装包, 需要额外进行安装.

对于内网服务器, 不能访问外网, 安装GraphX的python库graphframes需要进行额外的步骤, 本文介绍如何在Linux下offline为Spark 安装graphframes包.

安装步骤

  • 下载spark-3.5.0-bin-hadoop3.tgz和graphframes-0.8.3-spark3.5-s_2.12.jar
  • cd $install_path and tar -zxvf spark-3.5.0-bin-hadoop3.tgz
  • cp graphframes-0.8.3-spark3.5-s_2.12.jar $install_path/spark-3.5.0-bin-hadoop3/jars/
  • mkdir -p $install_path/pluginlib/graphframes
  • cp graphframes-0.8.3-spark3.5-s_2.12.jar $install_path/pluginlib/graphframes/
  • jar xf graphframes-0.8.3-spark3.5-s_2.12.jar
  • 添加 $install_path/pluginlib/graphframes 到环境PYTHONPATH环境变量

这样, 就可以使用graphframes库了

相关推荐
七歌杜金房11 小时前
我终于又有了自己的 Linux 电脑
linux·debian·mac
tntxia1 天前
linux curl命令详解_curl详解
linux
扛枪的书生2 天前
Linux 网络管理器用法速查
linux
顺风尿一寸2 天前
Java Socket 内核之旅:从 SocketChannel.read() 到 tcp_recvmsg 与 epoll 的完整调用链路
linux
XIAOHEZIcode2 天前
Ubuntu 终端美化全栈指南:Bash 到 Kitty 踩坑实录
linux·ubuntu·命令行
唐青枫2 天前
别再只会用 cron:Linux systemd Timer 定时任务实战详解
linux
AlfredZhao4 天前
生产环境里,为什么不建议把普通端口直接暴露到公网?
linux·https·443·80
戴为沐5 天前
Linux内存扩容指南
linux
zylyehuo5 天前
Linux 彻底且安全地删除文件
linux
用户805533698036 天前
主线 U-Boot 上 RK3506:和闭源 rkbin 拔河的三个隐性契约
linux·嵌入式