spark入门-helloword

我们学习编程语言的时候,第一个程序就是打印一下 "hello world" ,对于大数据领域的第一个任务则是wordcount。那我们就开始我们的第一个spark任务吧!

下载spark

官方下载地址:Apache Download Mirrors 下载完毕以后,直接tar解压即可。

本地启动spark集群

环境只是为了让我们能够运行我们的程序,所以我们的任务是写任务而不是搭建环境。搭建环境的部分,可能运维比我们更专业。

安装官网我们启动一个standalon模式 ,Spark Standalone Mode - Spark 4.0.0 Documentation

启动完以后master我们就可以在8080端口上看到我们的spark集群了。

接着启动一个worker,启动的时候需要master的地址。我们本地启动的,所以localhost就可以了。./sbin/start-worker.sh spark://bogon:7077 ,master的url可以从master 8080的界面看到,这个记得一定要写正确,要不启动worker的时候就有问题了。否则这个worker节点不现实worker个数的。

构建我们的jar程序

我们直接参考官网的代码(注意:这是学习的方式方法,看到别人博客直接写的入门代码。其实官方是第一手资料)Spark Streaming - Spark 4.0.0 Documentation

代码

Scala 复制代码
  def main(args: Array[String]): Unit = {

    println("======== start ==========")
    val conf = new SparkConf().setAppName("test")
    val ssc = new StreamingContext(conf, Seconds(1))

    val source = ssc.socketTextStream("localhost", 9999)
    val words = source.flatMap(_.split(","))
    val paris = words.map(word => (word, 1))
    val wordCounts = paris.reduceByKey(_ + _)
    wordCounts.print()

    ssc.start()
    ssc.awaitTermination()
  }

编译打包jar,然后提交submit

bash 复制代码
./bin/spark-submit \
  --class demo.WordCount \
  --executor-memory 512M  \
  --total-executor-cores 2 \
  --master spark://localhost:7077 \
  --deploy-mode client \
    --verbose \
   /path/spark-task-1.0-SNAPSHOT.jar  

Submitting Applications - Spark 4.0.0 Documentation

查看日志打印

总结

小结一下,其实看似很简单的一个demo。过程也是遇到了很多的问题,1、是启动 worker的时候需要制定master的url地址,这个需要从8080端口查看。2、发现自己的代码无法提交到集群中,结果发现是代码里面setMaster了,所以去掉。3、打包的时候提示找不到class,因为是maven构建的java程序。自己添加的scala包,所以需要打包的时候指定一下scala路径,把下面的class打包进去。

多实践才能发现问题,有时候只是知道了理论,看似懂了,其实离懂了还是差了一些。

相关推荐
跨境卫士苏苏6 小时前
亚马逊AI广告革命:告别“猜心”,迎接“共创”时代
大数据·人工智能·算法·亚马逊·防关联
珠海西格电力6 小时前
零碳园区工业厂房光伏一体化(BIPV)基础规划
大数据·运维·人工智能·智慧城市·能源
HerayChen6 小时前
HbuilderX 内存溢出报错
java·大数据·linux
梦里不知身是客118 小时前
flink中checkpoint的重启策略
大数据·服务器·flink
中科天工8 小时前
从“人海战术”到“无人值守”:一套智能工厂解决方案,如何用最小空间释放最大产能?
大数据·人工智能·智能
zhaodiandiandian8 小时前
生成式AI重塑内容创作:人机协同开启行业新生态
大数据·人工智能
不平衡的叉叉树8 小时前
Es索引文档全量更新与迁移
大数据·elasticsearch·搜索引擎
科技动态8 小时前
BOE(京东方)“焕新2026”年终媒体智享会落地成都 三大显示技术品牌引领行业发展风潮
大数据·人工智能·媒体
沃达德软件9 小时前
警务大数据实战模型解析
大数据·人工智能
zhou_gai10 小时前
供应链计划系统架构实战(五):数据模型设计-全球网络模型与数据分布
大数据·系统架构·制造