Linux下Spark offline安装graphframes包

文章目录

背景

GraphX是Spark中用于图计算的模块. Spark安装包中内置Scala语言的GraphX库, 但是对于Python语言的安装包, 需要额外进行安装.

对于内网服务器, 不能访问外网, 安装GraphX的python库graphframes需要进行额外的步骤, 本文介绍如何在Linux下offline为Spark 安装graphframes包.

安装步骤

  • 下载spark-3.5.0-bin-hadoop3.tgz和graphframes-0.8.3-spark3.5-s_2.12.jar
  • cd $install_path and tar -zxvf spark-3.5.0-bin-hadoop3.tgz
  • cp graphframes-0.8.3-spark3.5-s_2.12.jar $install_path/spark-3.5.0-bin-hadoop3/jars/
  • mkdir -p $install_path/pluginlib/graphframes
  • cp graphframes-0.8.3-spark3.5-s_2.12.jar $install_path/pluginlib/graphframes/
  • jar xf graphframes-0.8.3-spark3.5-s_2.12.jar
  • 添加 $install_path/pluginlib/graphframes 到环境PYTHONPATH环境变量

这样, 就可以使用graphframes库了

相关推荐
LXY_BUAA1 天前
《ubuntu22.04》_新系统的配置_20260418
linux·运维·服务器
楼田莉子1 天前
同步/异步日志系统:日志落地模块\日志器模块\异步日志模块
linux·服务器·c++·学习·设计模式
洛水水1 天前
图解式讲解内存池:告别内存碎片与随机coredump
linux·内存池
小章UPUP1 天前
2025-2026 新FFmpeg GUI工具推荐
linux
北山有鸟1 天前
相机的水平消隐与垂直消隐
linux·驱动开发·相机
还不秃顶的计科生1 天前
多模态模型下载
java·linux·前端
无忧.芙桃1 天前
进程控制之进程等待
linux·运维·服务器
云栖梦泽1 天前
Linux内核与驱动:13.从设备树到Platform平台总线
linux·运维·c++·嵌入式硬件
纯氧゜1 天前
文件名长度真相:别再被8.3规则误导了
linux·ai写作
xlq223221 天前
43.线程同步
大数据·linux