【Spark】win10配置IDEA、saprk、hadoop和scala

终于,要对并行计算下手了哈哈哈。

一直讲大数据大数据,我单次数据处理量大概在1t上下,是过亿级的轨迹数据。

用python调用multiprogress编写的代码,用多线程也要一个多月跑完。

我对这个效率不太满意,希望能快一点再快一点,这是学习Spark的前提。


安装过程见:

spark出pyspark了,可直接用python调用。但是我想接触下scala。所以先装scala试试。

博客园:windows上安装和运行spark scala
Spark简单介绍,Windows下安装Scala+Hadoop+Spark运行环境,集成到IDEA中

下面采用的是博客园的步骤。先IDEA,再saprk、hadoop、scala。

第二个微信链接,是先scala、hadoop,再spark。都可以

安装jdk

安装intelj IDEA,配置scala插件

wechat文章:2023最新版IntelliJ IDEA安装教程(非常详细)从零基础入门到精通,看完这一篇就够了

安装spark

安装hadoop

安装scala SDK

scala和spark版本对应,看这个链接:https://mvnrepository.com/artifact/org.apache.spark/spark-core

我3.5对应scala的2.12或者2.13。然后去官网下载,配好环境变量就行
https://www.scala-lang.org/download/all.html

安装Maven

我没有装,有需要再来


我的综合版本:

IDE:Intelij IDEA 2023.2.2

spark-3.5.0-bin-hadoop3

hadoop-3.3.6-tar.gz

Scala 2.13.12

验证scala

在IDEA中新建项目。2023版本跟网上的一些之前版本例子不一样,尤其是在【build system】这里,选择红框的。

这样新建的项目中才可以生成新的scala类。

相关推荐
yumgpkpm1 小时前
CMP(类ClouderaCDP7.3(404次编译) )完全支持华为鲲鹏Aarch64(ARM)使用 AI 优化库存水平、配送路线的具体案例及说明
大数据·人工智能·hive·hadoop·机器学习·zookeeper·cloudera
~kiss~1 小时前
spark-SQL学习
sql·学习·spark
BUG?不,是彩蛋!7 小时前
Java Web 项目打包部署全解析:从 IDEA 配置到 Tomcat 运行
java·intellij-idea
寒山李白11 小时前
IDEA连接MySQL服务器数据库指南
java·数据库·mysql·intellij-idea·idea·database
计算机学姐12 小时前
基于SpringBoot的动漫推荐系统【协同过滤推荐算法+词云图+排行榜】
java·vue.js·spring boot·后端·mysql·intellij-idea·推荐算法
饼干吖18 小时前
hadoop安装
大数据·hadoop·教程
为什么要做囚徒19 小时前
IntelliJ IDEA 远程断点调试完全指南
java·ide·intellij-idea
李少兄1 天前
IntelliJ IDEA 如何全局配置 Maven?避免每次打开新项目重新配置 (适用于 2024~2025 版本)
android·maven·intellij-idea
牛奶咖啡131 天前
Linux中安装部署Hadoop集群的保姆级安装配置教程
linux·hadoop·openjdk21安装配置·openjre21安装配置·hadoop集群安装配置·linux的ssh配置·linux实现免密登录配置
Kay_Liang1 天前
【Hive 踩坑实录】从元数据库初始化到 HiveServer2 启动的全流程问题解决
大数据·linux·hive·hadoop·笔记·mysql·ubuntu