Linux下Spark offline安装graphframes包

文章目录

背景

GraphX是Spark中用于图计算的模块. Spark安装包中内置Scala语言的GraphX库, 但是对于Python语言的安装包, 需要额外进行安装.

对于内网服务器, 不能访问外网, 安装GraphX的python库graphframes需要进行额外的步骤, 本文介绍如何在Linux下offline为Spark 安装graphframes包.

安装步骤

  • 下载spark-3.5.0-bin-hadoop3.tgz和graphframes-0.8.3-spark3.5-s_2.12.jar
  • cd $install_path and tar -zxvf spark-3.5.0-bin-hadoop3.tgz
  • cp graphframes-0.8.3-spark3.5-s_2.12.jar $install_path/spark-3.5.0-bin-hadoop3/jars/
  • mkdir -p $install_path/pluginlib/graphframes
  • cp graphframes-0.8.3-spark3.5-s_2.12.jar $install_path/pluginlib/graphframes/
  • jar xf graphframes-0.8.3-spark3.5-s_2.12.jar
  • 添加 $install_path/pluginlib/graphframes 到环境PYTHONPATH环境变量

这样, 就可以使用graphframes库了

相关推荐
xuanzdhc1 小时前
Linux 基础IO
linux·运维·服务器
愚润求学1 小时前
【Linux】网络基础
linux·运维·网络
bantinghy2 小时前
Linux进程单例模式运行
linux·服务器·单例模式
小和尚同志3 小时前
29.4k!使用 1Panel 来管理你的服务器吧
linux·运维
帽儿山的枪手3 小时前
为什么Linux需要3种NAT地址转换?一探究竟
linux·网络协议·安全
shadon1789 天前
回答 如何通过inode client的SSLVPN登录之后,访问需要通过域名才能打开的服务
linux
小米里的大麦9 天前
014 Linux 2.6内核进程调度队列(了解)
linux·运维·驱动开发
Cachel wood9 天前
Spark教程6:Spark 底层执行原理详解
大数据·数据库·分布式·计算机网络·spark
算法练习生9 天前
Linux文件元信息完全指南:权限、链接与时间属性
linux·运维·服务器
忘了ʷºᵇₐ9 天前
Linux系统能ping通ip但无法ping通域名的解决方法
linux·服务器·tcp/ip