Spark Stream - 技术栈

一、Spark Streaming是什么

Spark Streaming 用于流式数据的处理。Spark Streaming 支持的数据输入源很多，例如：Kafka、Flume、Twitter、ZeroMQ 和简单的 TCP 套接字等等。数据输入后可以用 Spark 的高度抽象原语如：map、reduce、join、window 等进行运算。而结果也能保存在很多地方，如 HDFS，数据库等

Spark Streaming 是 Spark Core 的扩展，它支持高吞吐量、可容错的实时数据流处理。在 Spark Streaming 中，数据被切分为一系列连续的批处理，每个批处理被当作一个 RDD。

二、Spark Streaming的特点

1.易用、2.容错、3.易整合到Spark体系

三、Spark Streaming 常用的 API

StreamingContext: 这是 Spark Streaming 的主要入口点，用于创建和配置流式计算。
scala 复制代码
textFileStream(directory): 从指定目录中读取新文件作为数据源。
scala 复制代码
queueStream(rddQueue): 从给定的RDD队列中获取数据。
scala 复制代码
socketTextStream(hostname, port): 从指定主机名和端口上的TCP套接字接收数据。
scala 复制代码
receiverStream(blockReceiver): 使用自定义的BlockReceiver来接收数据。
scala 复制代码
fileStream(directory): 监视指定目录下的新文件，与textFileStream类似，但可以设置检查间隔和滚动时间间隔。
scala 复制代码
foreachRDD(func): 对每个RDD执行操作，通常用于将数据写入外部系统或进行复杂的批处理操作。
scala 复制代码
count(): 返回每个批次中的元素数量。
scala 复制代码
reduce(func): 使用给定的函数将所有元素聚合成一个值。
scala 复制代码
collect(): 将数据收集到驱动程序节点上。
scala 复制代码
updateStateByKey(func): 根据键值更新状态。
scala 复制代码
mapWithState(func): 使用给定的函数和状态映射RDD。
scala 复制代码
window(windowLength, slideInterval): 创建一个滑动窗口。
scala 复制代码
reduceByWindow(func, windowLength, slideInterval): 在给定的窗口长度和滑动间隔内进行归约操作。
scala 复制代码
transform(rddFunc, outputMode): 使用给定的RDD函数转换输入RDD。
scala 复制代码
union(otherStream): 合并两个DStream。
scala 复制代码
intersection(otherStream): 计算两个DStream的交集。
scala 复制代码
subtract(otherStream): 计算两个DStream的差集。
scala 复制代码
join(otherStream): 连接两个DStream。
scala 复制代码
filter(func): 过滤DStream中的元素。
scala 复制代码
flatMap(func): 扁平化DStream中的元素。
scala 复制代码
map(func): 映射DStream中的元素。
scala 复制代码
foreachRDD(func): 对每个RDD执行操作，但不返回结果。
scala 复制代码
start(): 启动流式计算。
scala 复制代码
awaitTermination(): 等待流式计算终止。
scala 复制代码

这些 API 提供了强大的功能，使 Spark Streaming 能够处理各种实时数据流任务。