streaming

Laurence2 个月前
spark·多数据源·streaming·分流·双写·多表·foreachbatch
Spark Structured Streaming 分流或双写多表 / 多数据源(Multi Sinks / Writes)在 Spark Structured Streaming 中,我们有时候需要将最后的处理结果分流或双写到多张表或多个数据源(Multi Sinks / Writes),一个典型的例子是:在 CDC 数据入湖场景里,一个 Kafka Topic 上存放着整库或多张表的 CDC 消息,使用 Spark 从 Kafka 中摄取这些消息后,需要根据消息中提供的数据库名和数据表名对 CDC 消息分流,然后写到数据湖上对应的 ODS 表中,这就是一种典型的“数据分流”场景。在 Spark Structured Str
Francek Chen5 个月前
zookeeper·spark·kafka·streaming·structured
Structured Streaming目录一、概述(一)基本概念(二)两种处理模型(三)Structured Streaming和Spark SQL、Spark Streaming关系
撕得失败的标签6 个月前
pyspark·头歌实训·streaming
【头歌实训】PySpark Streaming 入门本关任务:使用 Spark Streaming 实现词频统计。为了完成本关任务,你需要掌握:Spark Streaming 是 Spark 的核心组件之一,为 Spark 提供了可拓展、高吞吐、容错的流计算能力。如下图所示,Spark Streaming 可整合多种输入数据源,如 Kafka、Flume、HDFS,甚至是普通的 TCP 套接字。经处理后的数据可存储至文件系统、数据库,或显示在仪表盘里。
撕得失败的标签6 个月前
mysql·kafka·pyspark·头歌实训·streaming
【头歌实训】PySpark Streaming 数据源本关任务:读取套接字流数据,完成词频统计,将结果写入 Mysql 中。为了完成本关任务,你需要掌握:在 PySpark 中支持通过 JDBC 的方式连接到其他数据库获取数据生成 DataFrame,当然也同样可以使用 Spark SQL 去读写数据库。除了 JDBC 数据源外,还支持 Parquet、JSON、Hive 等数据源。