spark入门-helloword

我们学习编程语言的时候,第一个程序就是打印一下 "hello world" ,对于大数据领域的第一个任务则是wordcount。那我们就开始我们的第一个spark任务吧!

下载spark

官方下载地址:Apache Download Mirrors 下载完毕以后,直接tar解压即可。

本地启动spark集群

环境只是为了让我们能够运行我们的程序,所以我们的任务是写任务而不是搭建环境。搭建环境的部分,可能运维比我们更专业。

安装官网我们启动一个standalon模式 ,Spark Standalone Mode - Spark 4.0.0 Documentation

启动完以后master我们就可以在8080端口上看到我们的spark集群了。

接着启动一个worker,启动的时候需要master的地址。我们本地启动的,所以localhost就可以了。./sbin/start-worker.sh spark://bogon:7077 ,master的url可以从master 8080的界面看到,这个记得一定要写正确,要不启动worker的时候就有问题了。否则这个worker节点不现实worker个数的。

构建我们的jar程序

我们直接参考官网的代码(注意:这是学习的方式方法,看到别人博客直接写的入门代码。其实官方是第一手资料)Spark Streaming - Spark 4.0.0 Documentation

代码

Scala 复制代码
  def main(args: Array[String]): Unit = {

    println("======== start ==========")
    val conf = new SparkConf().setAppName("test")
    val ssc = new StreamingContext(conf, Seconds(1))

    val source = ssc.socketTextStream("localhost", 9999)
    val words = source.flatMap(_.split(","))
    val paris = words.map(word => (word, 1))
    val wordCounts = paris.reduceByKey(_ + _)
    wordCounts.print()

    ssc.start()
    ssc.awaitTermination()
  }

编译打包jar,然后提交submit

bash 复制代码
./bin/spark-submit \
  --class demo.WordCount \
  --executor-memory 512M  \
  --total-executor-cores 2 \
  --master spark://localhost:7077 \
  --deploy-mode client \
    --verbose \
   /path/spark-task-1.0-SNAPSHOT.jar  

Submitting Applications - Spark 4.0.0 Documentation

查看日志打印

总结

小结一下,其实看似很简单的一个demo。过程也是遇到了很多的问题,1、是启动 worker的时候需要制定master的url地址,这个需要从8080端口查看。2、发现自己的代码无法提交到集群中,结果发现是代码里面setMaster了,所以去掉。3、打包的时候提示找不到class,因为是maven构建的java程序。自己添加的scala包,所以需要打包的时候指定一下scala路径,把下面的class打包进去。

多实践才能发现问题,有时候只是知道了理论,看似懂了,其实离懂了还是差了一些。

相关推荐
EasyCVR4 小时前
从汇聚到智能:解析视频融合平台EasyCVR视频智能分析技术背后的关键技术
大数据·人工智能
uesowys4 小时前
Apache Spark算法开发指导-特征转换Interaction
spark·特征转换interaction
hqyjzsb6 小时前
2025文职转行AI管理岗:衔接型认证成为关键路径
大数据·c语言·人工智能·信息可视化·媒体·caie
sniper_fandc6 小时前
Elasticsearch从入门到进阶——分布式特性
大数据·分布式·elasticsearch
YangYang9YangYan7 小时前
大专计算机技术专业就业方向:解读、规划与提升指南
大数据·人工智能·数据分析
扫地的小何尚8 小时前
AI创新的火花:NVIDIA DGX Spark开箱与深度解析
大数据·人工智能·spark·llm·gpu·nvidia·dgx
B站_计算机毕业设计之家8 小时前
spark实战:python股票数据分析可视化系统 Flask框架 金融数据分析 Echarts可视化 大数据技术 ✅
大数据·爬虫·python·金融·数据分析·spark·股票
可惜我是水瓶座__8 小时前
[Spark] TaskMetrics指标收集
spark·1024程序员节
hzp6668 小时前
spark动态分区参数spark.sql.sources.partitionOverwriteMode
大数据·hive·分布式·spark·etl·partitionover
0和1的舞者13 小时前
《Git:从入门到精通(八)——企业级git开发相关内容》
大数据·开发语言·git·搜索引擎·全文检索·软件工程·初学者