2023_Spark_实验二十:SparkStreaming累加计算单词频率

一、需求分析

在服务器端不断产生数据的时候,sparkstreaming客户端需要不断统计服务器端产生的相同数据出现的总数,即累计服务器端产生的相同数据的出现的次数。

二、实验环境

centos7 + nc + spark2.1.1 + windows + idea

三、思路分析

流程分析

思路分析

每次客户端程序处理服务器端数据后,将其结果缓存在检查点中,下一次客户端读入数据并处理数据时会去检查点根据key查询和进行更新,并重新将结果更新到检查点中。

检查点:本质上就是对应于HDFS上的一个目录,将数据写入到该目录下以文件的形式将结果保存下来。故,需要先在hdfs上创建检查点对应的目录。

四、编程实现

实验步骤:

  • 编写客户端处理程序,程序如下
Scala 复制代码
import org.apache.spark.SparkConf

import org.apache.spark.storage.StorageLevel

import org.apache.spark.streaming.{Seconds, StreamingContext}



object MyTotalNetworkWordCount {

def main(args: Array[String]): Unit = {

//创建一个Context对象: StreamingContext (SparkContext, SQLContext)

//指定批处理的时间间隔

val conf = newSparkConf().setAppName("MyNetworkWordCount").setMaster("local[2]")

val ssc = new StreamingContext(conf,Seconds(5))

//设置检查点

ssc.checkpoint("file:///d:/temp/checkpoint")



//创建一个DStream,处理数据,hadoop001为虚拟机的主机名,端口号为netcat服务的端口号

val lines = ssc.socketTextStream("192.168.245.110",1234,StorageLevel.MEMORY_AND_DISK_SER)



//执行wordcount

val words = lines.flatMap(_.split(" "))



//定义函数用于累计每个单词的总频率

val addFunc = (currValues: Seq[Int], prevValueState: Option[Int]) => {

//通过Spark内部的reduceByKey按key规约,然后这里传入某key当前批次的Seq/List,再计算当前批次的总和

val currentCount = currValues.sum

// 已累加的值

val previousCount = prevValueState.getOrElse(0)

// 返回累加后的结果,是一个Option[Int]类型

Some(currentCount + previousCount)

}



val pairs = words.map(word => (word, 1))



val totalWordCounts = pairs.updateStateByKey[Int](addFunc)

totalWordCounts.print()



ssc.start()

ssc.awaitTermination()

}

}
  • 运行程序

  • 在Linux中启动nc: nc -l 1234

  • 输入测试数据,每输入一次数据执行一次回车:

查看下检查点是否有数据:

相关推荐
人间打气筒(Ada)1 小时前
Centos7 搭建hadoop2.7.2、hbase伪分布式集群
数据库·分布式·hbase
原来是好奇心2 小时前
消息队列终极选型:RabbitMQ、RocketMQ、Kafka与ActiveMQ深度对比
分布式·kafka·rabbitmq·rocketmq·activemq·mq
com_4sapi3 小时前
2025 权威认证头部矩阵系统全景对比发布 双榜单交叉验证
大数据·c语言·人工智能·算法·矩阵·机器人
9ilk4 小时前
【仿RabbitMQ的发布订阅式消息队列】 ---- 功能测试联调
linux·服务器·c++·分布式·学习·rabbitmq
周杰伦_Jay4 小时前
【RPC:分布式跨节点透明通信协议】【Raft:简单易实现的分布式共识算法】
分布式·rpc·共识算法
鲸能云4 小时前
政策解读 | “十五五”能源规划下储能发展路径与鲸能云数字化解决方案
大数据·能源
嗝屁小孩纸5 小时前
免费测评RPC分布式博客平台(仅用云服务器支持高性能)
服务器·分布式·rpc
Alex艾力的IT数字空间5 小时前
完整事务性能瓶颈分析案例:支付系统事务雪崩优化
开发语言·数据结构·数据库·分布式·算法·中间件·php
五度易链-区域产业数字化管理平台5 小时前
五度易链大数据治理实战:从数据孤岛到智能决策
大数据
激动的小非5 小时前
电商数据分析报告
大数据·人工智能·数据分析