5.2 初识Spark Streaming

howard20052025-06-03 16:04

在本节实战中，我们初步探索了Spark Streaming，它是Spark的流式数据处理子框架，具备高吞吐量、可伸缩性和强容错能力。我们了解了Spark Streaming的基本概念和运行原理，并通过两个案例演示了如何利用Spark Streaming实现词频统计。第一个案例是监听TCP Socket端口的数据，实时计算接收到的文本数据中的单词数。第二个案例是监听HDFS上的目录，一旦有新文件加入到指定目录下，Spark Streaming计算出该时间内的单词统计数。通过这些实战操作，我们掌握了Spark Streaming的基本使用方法，为后续的深入学习打下了基础。