Spark-Streaming简介 核心编程

  1. Spark-Streaming概述

定义:用于处理流式数据,支持多种数据输入源,可运用Spark原语运算,结果能保存于多处。它以离散化流(DStream)为抽象表示,是RDD在实时数据处理场景的封装。

特点:易用,支持多语言编写实时计算程序;容错,可恢复丢失数据;易整合,能在Spark上运行,结合离线处理实现交互式查询。

  1. Spark-Streaming架构:包含背压机制,1.5版本前靠设置静态参数限制Receiver数据接收速率,易导致资源利用率低。1.5版本起可动态调整,通过"spark.streaming.backpressure.enabled"控制,默认不启用。

  2. DStream实操 - WordCount案例

  1. RDD队列创建DStream:可利用 ssc.queueStream(queueOfRDDs) 创建DStream,队列中的每个RDD都会被当作一个DStream处理。
  1. 自定义数据源创建DStream:自定义数据源需继承Receiver并实现 onStart 、 onStop 方法。
相关推荐
千层冷面31 分钟前
git中多仓库工作的常用命令
大数据·elasticsearch·github
黄雪超1 小时前
Kafka——消费者组重平衡全流程解析
大数据·分布式·kafka
黄雪超1 小时前
Kafka——Kafka控制器
大数据·分布式·kafka
青云交4 小时前
Java 大视界 -- Java 大数据机器学习模型在金融信用评级模型优化与信用风险动态管理中的应用(371)
java·大数据·机器学习·信用评级·动态风控·跨境金融·小贷风控
笙囧同学7 小时前
基于大数据技术的疾病预警系统:从数据预处理到机器学习的完整实践(后附下载链接)
大数据·网络·机器学习
java叶新东老师15 小时前
git 提交时排除一个或多个文件
大数据·git·elasticsearch
阿里云大数据AI技术15 小时前
Hologres V3.1版本发布,Serverless型实例从零开始构建OLAP系统
大数据·人工智能·机器学习
秋难降17 小时前
一篇文章带你了解Pandassssssssssssssss
大数据·python·pandas
数据皮皮侠18 小时前
中国汽车能源消耗量(2010-2024年)
大数据·数据库·人工智能·物联网·金融·汽车·能源
TDengine (老段)18 小时前
TDengine 转化函数 TO_TIMESTAMP 用户手册
java·大数据·数据库·物联网·时序数据库·tdengine·涛思数据