2023_Spark_实验十九:SparkStreaming入门案例

SparkStreaming入门案例

一、准备工作
二、任务分析
三、官网案例
四、开发NetWordCount

一、准备工作


  • 实验环境:netcat
  • 安装nc:yum install -y nc

二、任务分析


将nc作为服务器端,用户产生数据;启动sparkstreaming案例中的客户端程序,监听服务器端发送过来的数据,并对其数据进行词频统计,即为流式的wordcount入门程序

三、官网案例


启动nc作为服务器端,执行:nc -l 1234,并输入测试数据,如图所示:

  • 启动客户端,执行:
    bin/run-example streaming.NetworkWordCount localhost 1234

注意):如果要执行本例,必须确保机器 cpu 核数大于 2

四、开发NetWordCount

  1. 创建maven工程
  2. 添加maven依赖,即在pom.xml中添加streamming的依赖,如下(如果之前实验已经添加,就不用再添加,如果之前未添加,则需要添加该依赖)
XML 复制代码
<dependency>
<groupId>org.apache.spark</groupId>
<artifactId>spark-streaming_2.12</artifactId>
<version>2.1.1</version>
</dependency>

3.开发NetWordCount程序

Scala 复制代码
import org.apache.spark.SparkConf
import org.apache.spark.storage.StorageLevel
import org.apache.spark.streaming.dstream.{DStream, ReceiverInputDStream}
import org.apache.spark.streaming.{Seconds, StreamingContext}

object StreamingTest {
def main(args: Array[String]): Unit = {
val sparkConf = newSparkConf().setMaster("local[2]").setAppName("StreamingTest")
val streamingContext = new StreamingContext(sparkConf, Seconds(5))

// 创建DStream对象,并链接到nc服务器端
val ris: ReceiverInputDStream[String] = streamingContext.socketTextStream("192.168.245.110", 1234,StorageLevel.MEMORY_AND_DISK)
// 采集数据,并处理数据
val ds: DStream[String] = ris.flatMap(_.split(" "))
println(ris)
// 统计单词
val resultDS: DStream[(String, Int)] = ds.map(x => (x, 1)).reduceByKey(_ + _)
// 打印结果
resultDS.print()
// 启动实时计算
streamingContext.start()
// 等待计算结束
streamingContext.awaitTermination()
}
}

4.先在虚拟机上启动nc服务器:nc -l 1234,并输入测试数据,如图
5.然后运行程序
6.运行结果如下

参考:
https://www.shuzhiduo.com/A/gVdneZLa5W/

相关推荐
大大大大晴天4 小时前
Hudi技术内幕:RecordPayload到RecordMerger
大数据
SelectDB18 小时前
秒级弹性、最高降本 70%:SelectDB Serverless 如何重塑云数仓资源效率
大数据·后端·云原生
WhoAmI19 小时前
MapReduce框架原理解析一:InputFormat
大数据·hadoop
WhoAmI19 小时前
MapReduce框架原理解析三:OutputFormat
大数据·hadoop
WhoAmI19 小时前
MapReduce框架原理解析二:Shuffle
大数据·hadoop
大大大大晴天2 天前
Hudi技术内幕:Key Generation原理与实践
大数据
得物技术5 天前
从埋点需求到规则资产:Hermes Agent 重构得物数仓工作流
大数据·llm·ai编程
久美子5 天前
AI驱动数仓建设的Harness工程实践——本体建模、知识分层与上下文工程
大数据
大树886 天前
金刚石散热越强,管路越先见顶
大数据·运维·服务器·人工智能·ai
大志哥1236 天前
ES和Logstash日志链路系统上线后遭遇切片爆炸(解决)
大数据·elasticsearch