spark入门-helloword

我们学习编程语言的时候，第一个程序就是打印一下 "hello world" ，对于大数据领域的第一个任务则是wordcount。那我们就开始我们的第一个spark任务吧！

下载spark

官方下载地址：Apache Download Mirrors 下载完毕以后，直接tar解压即可。

本地启动spark集群

环境只是为了让我们能够运行我们的程序，所以我们的任务是写任务而不是搭建环境。搭建环境的部分，可能运维比我们更专业。

安装官网我们启动一个standalon模式，Spark Standalone Mode - Spark 4.0.0 Documentation。

启动完以后master我们就可以在8080端口上看到我们的spark集群了。

接着启动一个worker，启动的时候需要master的地址。我们本地启动的，所以localhost就可以了。./sbin/start-worker.sh spark://bogon:7077 ,master的url可以从master 8080的界面看到，这个记得一定要写正确，要不启动worker的时候就有问题了。否则这个worker节点不现实worker个数的。

构建我们的jar程序

我们直接参考官网的代码（注意：这是学习的方式方法，看到别人博客直接写的入门代码。其实官方是第一手资料）Spark Streaming - Spark 4.0.0 Documentation

代码

Scala 复制代码

  def main(args: Array[String]): Unit = {

    println("======== start ==========")
    val conf = new SparkConf().setAppName("test")
    val ssc = new StreamingContext(conf, Seconds(1))

    val source = ssc.socketTextStream("localhost", 9999)
    val words = source.flatMap(_.split(","))
    val paris = words.map(word => (word, 1))
    val wordCounts = paris.reduceByKey(_ + _)
    wordCounts.print()

    ssc.start()
    ssc.awaitTermination()
  }

编译打包jar，然后提交submit

bash 复制代码

./bin/spark-submit \
  --class demo.WordCount \
  --executor-memory 512M  \
  --total-executor-cores 2 \
  --master spark://localhost:7077 \
  --deploy-mode client \
    --verbose \
   /path/spark-task-1.0-SNAPSHOT.jar

Submitting Applications - Spark 4.0.0 Documentation

查看日志打印

总结

小结一下，其实看似很简单的一个demo。过程也是遇到了很多的问题，1、是启动 worker的时候需要制定master的url地址，这个需要从8080端口查看。2、发现自己的代码无法提交到集群中，结果发现是代码里面setMaster了，所以去掉。3、打包的时候提示找不到class，因为是maven构建的java程序。自己添加的scala包，所以需要打包的时候指定一下scala路径，把下面的class打包进去。

多实践才能发现问题，有时候只是知道了理论，看似懂了，其实离懂了还是差了一些。