Spark-Streaming简介 核心编程

  1. Spark-Streaming概述

定义:用于处理流式数据,支持多种数据输入源,可运用Spark原语运算,结果能保存于多处。它以离散化流(DStream)为抽象表示,是RDD在实时数据处理场景的封装。

特点:易用,支持多语言编写实时计算程序;容错,可恢复丢失数据;易整合,能在Spark上运行,结合离线处理实现交互式查询。

  1. Spark-Streaming架构:包含背压机制,1.5版本前靠设置静态参数限制Receiver数据接收速率,易导致资源利用率低。1.5版本起可动态调整,通过"spark.streaming.backpressure.enabled"控制,默认不启用。

  2. DStream实操 - WordCount案例

  1. RDD队列创建DStream:可利用 ssc.queueStream(queueOfRDDs) 创建DStream,队列中的每个RDD都会被当作一个DStream处理。
  1. 自定义数据源创建DStream:自定义数据源需继承Receiver并实现 onStart 、 onStop 方法。
相关推荐
liliangcsdn4 分钟前
LLM MoE 形式化探索
大数据·人工智能
天远云服34 分钟前
Go 语言高并发实战:批量清洗天远借贷行为验证API (JRZQ8203) 的时间序列数据
大数据·api
Hello.Reader35 分钟前
Flink 系统内置函数(Built-in Functions)分类、典型用法与选型建议
大数据·flink·excel
AI营销实验室1 小时前
AI 工具何高质量的为销售线索打分?
大数据·人工智能
打码人的日常分享2 小时前
企业数据资产管控和数据治理解决方案
大数据·运维·网络·人工智能·云计算
数字冰雹2 小时前
从“东数西算”到智慧机房:数字孪生如何重塑数据中心的“智能大脑”?
大数据·人工智能·数据可视化
qq_348231852 小时前
市场快评 · 今日复盘要点20251224
大数据
TG:@yunlaoda360 云老大3 小时前
如何在华为云国际站代理商控制台进行SFS Turbo的基础状态核查?
大数据·服务器·华为云·php
Yyyyy123jsjs3 小时前
XAUUSD API 周末无推送,会影响回测与实盘一致性吗?
大数据·区块链
是Judy咋!3 小时前
Elasticsearch---单机部署
大数据·elasticsearch·搜索引擎