【Spark】win10配置IDEA、saprk、hadoop和scala

终于,要对并行计算下手了哈哈哈。

一直讲大数据大数据,我单次数据处理量大概在1t上下,是过亿级的轨迹数据。

用python调用multiprogress编写的代码,用多线程也要一个多月跑完。

我对这个效率不太满意,希望能快一点再快一点,这是学习Spark的前提。


安装过程见:

spark出pyspark了,可直接用python调用。但是我想接触下scala。所以先装scala试试。

博客园:windows上安装和运行spark scala
Spark简单介绍,Windows下安装Scala+Hadoop+Spark运行环境,集成到IDEA中

下面采用的是博客园的步骤。先IDEA,再saprk、hadoop、scala。

第二个微信链接,是先scala、hadoop,再spark。都可以

安装jdk

安装intelj IDEA,配置scala插件

wechat文章:2023最新版IntelliJ IDEA安装教程(非常详细)从零基础入门到精通,看完这一篇就够了

安装spark

安装hadoop

安装scala SDK

scala和spark版本对应,看这个链接:https://mvnrepository.com/artifact/org.apache.spark/spark-core

我3.5对应scala的2.12或者2.13。然后去官网下载,配好环境变量就行
https://www.scala-lang.org/download/all.html

安装Maven

我没有装,有需要再来


我的综合版本:

IDE:Intelij IDEA 2023.2.2

spark-3.5.0-bin-hadoop3

hadoop-3.3.6-tar.gz

Scala 2.13.12

验证scala

在IDEA中新建项目。2023版本跟网上的一些之前版本例子不一样,尤其是在【build system】这里,选择红框的。

这样新建的项目中才可以生成新的scala类。

相关推荐
升鲜宝供应链及收银系统源代码服务32 分钟前
升鲜宝供应链管理系统box_周转物功能设计模块详细开发文档(一)---升鲜宝生鲜配送供应链管理系统源代码服务
java·intellij-idea·生鲜配送源代码·升鲜宝生鲜配送源代码·后端app与手机端·b2b订货商城·客户订货系统源代码
Irene19915 小时前
(课堂笔记)hadoop 基础使用
hadoop
Chase_______6 小时前
【Java基础核心知识点全解·第0篇】Java开发环境搭建指南:JDK + IDEA 从安装配置到运行 HelloWorld
java·开发语言·intellij-idea
水火既济__6 小时前
加快hive效率
数据仓库·hive·hadoop
您^_^6 小时前
专家(二):Claude Code 数据工程实战:dbt + Airflow + Spark 全流程,$0.22 搭完电商分析管道
大数据·分布式·spark·claudecode·claude code全栈
蜡台6 小时前
IDEA 编辑器两个竖线显示位置
java·编辑器·intellij-idea
慕言手记1 天前
IDEA 插件常用-2026版
java·ide·spring boot·intellij-idea·idea·intellij idea
zhojiew1 天前
在EMR集群中使用Spark MCP服务构建Strands Agent进行故障排查的实践
大数据·spark
雨落在了我的手上2 天前
初识java(七):Java调试案例讲解
java·intellij-idea·集成开发环境调试功能
小蜗快跑丶2 天前
idea 运行main方法和test出错
intellij-idea