【Spark】win10配置IDEA、saprk、hadoop和scala

终于,要对并行计算下手了哈哈哈。

一直讲大数据大数据,我单次数据处理量大概在1t上下,是过亿级的轨迹数据。

用python调用multiprogress编写的代码,用多线程也要一个多月跑完。

我对这个效率不太满意,希望能快一点再快一点,这是学习Spark的前提。


安装过程见:

spark出pyspark了,可直接用python调用。但是我想接触下scala。所以先装scala试试。

博客园:windows上安装和运行spark scala
Spark简单介绍,Windows下安装Scala+Hadoop+Spark运行环境,集成到IDEA中

下面采用的是博客园的步骤。先IDEA,再saprk、hadoop、scala。

第二个微信链接,是先scala、hadoop,再spark。都可以

安装jdk

安装intelj IDEA,配置scala插件

wechat文章:2023最新版IntelliJ IDEA安装教程(非常详细)从零基础入门到精通,看完这一篇就够了

安装spark

安装hadoop

安装scala SDK

scala和spark版本对应,看这个链接:https://mvnrepository.com/artifact/org.apache.spark/spark-core

我3.5对应scala的2.12或者2.13。然后去官网下载,配好环境变量就行
https://www.scala-lang.org/download/all.html

安装Maven

我没有装,有需要再来


我的综合版本:

IDE:Intelij IDEA 2023.2.2

spark-3.5.0-bin-hadoop3

hadoop-3.3.6-tar.gz

Scala 2.13.12

验证scala

在IDEA中新建项目。2023版本跟网上的一些之前版本例子不一样,尤其是在【build system】这里,选择红框的。

这样新建的项目中才可以生成新的scala类。

相关推荐
二十六画生的博客9 小时前
每个subtask都提交一份快照到hdfs,会把10个小的快照合并成一个大的吗?谁来合并?
大数据·hadoop·hdfs·flink
千月落11 小时前
HDFS数据迁移
大数据·hadoop·hdfs
whuang09421 小时前
腾讯云 emr 无法以cosn 写入云存储
spark
隐于花海,等待花开1 天前
40.RAND 函数深度解析
hive·hadoop
lifewange1 天前
Pycharm和IDEA中安装Cursor的方法
ide·pycharm·intellij-idea
misL NITL2 天前
idea、mybatis报错Property ‘sqlSessionFactory‘ or ‘sqlSessionTemplate‘ are required
tomcat·intellij-idea·mybatis
howard20052 天前
2.4.3 集群模式运行Spark项目
spark·项目打包·提交运行
孤雪心殇2 天前
快速上手数仓基础知识
数据仓库·hive·spark
渣渣盟2 天前
Spark 性能调优实战:从开发到生产落地
javascript·ajax·spark
lifewange2 天前
Claude Code可以安装在IDEA和Pycharm中么
java·pycharm·intellij-idea