spark stream入门案例:netcat准实时处理wordCount(scala 编程)

目录

案例需求

代码

结果

解析


案例需求:

使用netcat工具向9999端口不断的发送数据,通过SparkStreaming读取端口数据并统计不同单词出现的次数

-- 1. Spark从socket中获取数据:一行一行的获取

-- 2. Driver程序执行时,streaming处理过程不能结束

-- 3. 采集器在正常情况下启动后就不应该停止,除非特殊情况

-- 4. 采集器位于一个executor中,是一个线程,执行时需要一个核,如果设定的总核数为1时,那么在运行时因为没有核数,所以不会有打印结果,所以sparkStreaming使用的核数至少为2个

-- 5. print()方法,默认是打印10行结果

-- 6. netcat的指令:

Scala 复制代码
      在Windows下:nc -lp 9999
      在linux下: nc -lk 9999
代码:
Scala 复制代码
package cn.olo.stream

import org.apache.spark.SparkConf
import org.apache.spark.streaming.dstream.{DStream, ReceiverInputDStream}
import org.apache.spark.streaming.{Seconds, StreamingContext}

object StreamDemo {
  def main(args: Array[String]): Unit = {
    // 连接SparkStreaming
    val sparkConf: SparkConf = new SparkConf().setMaster("local[*]").setAppName("sparkStreaming")
    /*
  1.方法:StreamingContext(形参)
  2.形参:
    形参1:conf: SparkConf:spark配置对象
    形参2:batchDuration: Duration:采集时间
 */
    val ssc = new StreamingContext(sparkConf,Seconds(5))

    // 需求:使用netcat工具向9999端口不断的发送数据,通过SparkStreaming读取端口数据并统计不同单词出现的次数

    // 1. 获取netcat工具9999端口的连接,并开始接收数据
    // 从socket中获取数据:一行一行的获取

    val socketDS: ReceiverInputDStream[String] = ssc.socketTextStream("localhost",9999)

    // 2. 数据处理
    val wordDS: DStream[String] = socketDS.flatMap(_.split(" "))

    val wordToSumDS: DStream[(String, Int)] = wordDS.map((_,1)).reduceByKey(_ + _ )

    // 3. 打印数据
    wordToSumDS.print()

    // 4. Driver程序执行时,streaming处理过程不能结束

    // 采集器在正常情况下启动后就不应该停止,除非特殊情况

    // 启动采集器
    ssc.start()

    // 等待采集器的结束
    ssc.awaitTermination()


  }

}
结果:

解析:

a、采集周期时间之间,每一个采集周期生成一个RDD,按照时间的顺序依次进行

b、在每一个采集周期内,会执行wordcount计算,最终得出:统计出每一个采集周期时间的wordcount

相关推荐
简佐义的博客26 分钟前
转录组数据分析实战,仅需99元(视频版)
大数据·人工智能·数据挖掘·数据分析·音视频
APO Research31 分钟前
工业连接件的隐形升级:杆端轴承正在从“标准件”走向“结构安全件”
大数据·安全·#工业零部件·#机械设计·#工业自动化·#杆端轴承·#机械结构件
YangYang9YangYan32 分钟前
2026高职财税大数据应用学数据分析的技术价值与应用前景
大数据·数据挖掘·数据分析
l1t1 小时前
在ARM64 KyLin计算机上安装llama.cpp
大数据·llama·kylin
福客AI智能客服1 小时前
电商店铺效率升级:智能客服系统如何重构服务与转化逻辑
大数据·重构
偷吃的耗子1 小时前
大数据报表系统技术方案与业务方案设计
大数据·架构
2601_949539452 小时前
家用插混SUV实测研究:聚焦电池安全与质保,为家庭选型提供参考
大数据
代码探秘者2 小时前
【Redis】分布式锁深度解析:实现、可重入、主从一致性与强一致方案
java·数据库·redis·分布式·缓存·面试
康康的AI博客2 小时前
优化工程系统稳定性:DMXAPI在可靠性工程中的应用
大数据
故事和你913 小时前
sdut-程序设计基础Ⅰ-实验二选择结构(1-8)
大数据·开发语言·数据结构·c++·算法·优化·编译原理