【Spark】win10配置IDEA、saprk、hadoop和scala

终于,要对并行计算下手了哈哈哈。

一直讲大数据大数据,我单次数据处理量大概在1t上下,是过亿级的轨迹数据。

用python调用multiprogress编写的代码,用多线程也要一个多月跑完。

我对这个效率不太满意,希望能快一点再快一点,这是学习Spark的前提。


安装过程见:

spark出pyspark了,可直接用python调用。但是我想接触下scala。所以先装scala试试。

博客园:windows上安装和运行spark scala
Spark简单介绍,Windows下安装Scala+Hadoop+Spark运行环境,集成到IDEA中

下面采用的是博客园的步骤。先IDEA,再saprk、hadoop、scala。

第二个微信链接,是先scala、hadoop,再spark。都可以

安装jdk

安装intelj IDEA,配置scala插件

wechat文章:2023最新版IntelliJ IDEA安装教程(非常详细)从零基础入门到精通,看完这一篇就够了

安装spark

安装hadoop

安装scala SDK

scala和spark版本对应,看这个链接:https://mvnrepository.com/artifact/org.apache.spark/spark-core

我3.5对应scala的2.12或者2.13。然后去官网下载,配好环境变量就行
https://www.scala-lang.org/download/all.html

安装Maven

我没有装,有需要再来


我的综合版本:

IDE:Intelij IDEA 2023.2.2

spark-3.5.0-bin-hadoop3

hadoop-3.3.6-tar.gz

Scala 2.13.12

验证scala

在IDEA中新建项目。2023版本跟网上的一些之前版本例子不一样,尤其是在【build system】这里,选择红框的。

这样新建的项目中才可以生成新的scala类。

相关推荐
霸道流氓气质6 小时前
通义灵码 IDEA 插件完全使用指南
java·ide·intellij-idea
超梦dasgg16 小时前
IDEA(IntelliJ IDEA)超详细基础使用教程
java·ide·intellij-idea
段一凡-华北理工大学17 小时前
工业领域的Hadoop架构学习~系列文章09:HBase列式数据库
数据库·人工智能·hadoop·架构·hbase·高炉炼铁·高炉炼铁智能化
muddjsv17 小时前
Hadoop 与 HBase 深度剖析:从架构原理到实战应用
hadoop·架构·hbase
之歆18 小时前
在 IntelliJ IDEA 里复刻 Cursor 式内联审查:一篇够长的架构复盘-从入门到放弃
java·架构·intellij-idea
工业互联网专业18 小时前
基于Spark的共享单车数据存储系统的设计与实现_flask+spider
spark·flask·毕业设计·源码·课程设计·spider·共享单车
X.AI66618 小时前
英伟达RTX Spark发布:AI PC的下一战,不是跑分,而是本地Agent
大数据·人工智能·spark
段一凡-华北理工大学18 小时前
工业领域的Hadoop架构学习~系列文章10:数据序列化与压缩
大数据·人工智能·hadoop·分布式·学习·工业智能体·高炉炼铁智能化
KaMeidebaby1 天前
卡梅德生物技术快报|peg 修饰调控 MXene/WS2 异质结,氨气传感器制备与机理研究
大数据·前端·人工智能·架构·spark·新浪微博
January12072 天前
IDEA 快捷键
java·ide·intellij-idea