【Spark】win10配置IDEA、saprk、hadoop和scala

终于,要对并行计算下手了哈哈哈。

一直讲大数据大数据,我单次数据处理量大概在1t上下,是过亿级的轨迹数据。

用python调用multiprogress编写的代码,用多线程也要一个多月跑完。

我对这个效率不太满意,希望能快一点再快一点,这是学习Spark的前提。


安装过程见:

spark出pyspark了,可直接用python调用。但是我想接触下scala。所以先装scala试试。

博客园:windows上安装和运行spark scala
Spark简单介绍,Windows下安装Scala+Hadoop+Spark运行环境,集成到IDEA中

下面采用的是博客园的步骤。先IDEA,再saprk、hadoop、scala。

第二个微信链接,是先scala、hadoop,再spark。都可以

安装jdk

安装intelj IDEA,配置scala插件

wechat文章:2023最新版IntelliJ IDEA安装教程(非常详细)从零基础入门到精通,看完这一篇就够了

安装spark

安装hadoop

安装scala SDK

scala和spark版本对应,看这个链接:https://mvnrepository.com/artifact/org.apache.spark/spark-core

我3.5对应scala的2.12或者2.13。然后去官网下载,配好环境变量就行
https://www.scala-lang.org/download/all.html

安装Maven

我没有装,有需要再来


我的综合版本:

IDE:Intelij IDEA 2023.2.2

spark-3.5.0-bin-hadoop3

hadoop-3.3.6-tar.gz

Scala 2.13.12

验证scala

在IDEA中新建项目。2023版本跟网上的一些之前版本例子不一样,尤其是在【build system】这里,选择红框的。

这样新建的项目中才可以生成新的scala类。

相关推荐
极光代码工作室1 小时前
基于Hadoop的日志数据分析系统设计
大数据·hadoop·python·数据分析·数据可视化
Hello.Reader4 小时前
Spark Connect 快速入门远程连接 Spark 集群实战
javascript·ajax·spark
Hello.Reader7 小时前
Pandas API on Spark 快速入门像写 Pandas 一样使用 Spark
大数据·spark·pandas
tumeng07111 天前
HDFS的架构优势与基本操作
hadoop·hdfs·架构
蓝眸少年CY1 天前
Hive - 函数、压缩与优化
数据仓库·hive·hadoop
仗剑_走天涯1 天前
Hadoop 安装
大数据·hadoop·分布式
sunxunyong1 天前
HDFS nnsdy重新配置启动
大数据·hadoop·hdfs
bukeyiwanshui1 天前
Hadoop环境搭建
大数据·hadoop·分布式
Jianghong Jian1 天前
HDFS常用的JAVA API
大数据·hadoop·hdfs
啥都想学点1 天前
第17天:JDK、IDEA、MySQL 安装
java·intellij-idea