flume整合Kafka和spark-streaming核心编程

flume整合Kafka

需求1:利用flume监控某目录中新生成的文件,将监控到的变更数据发送给kafka,kafka将收到的数据打印到控制台:

1.查看topic

2.编辑flume-Kafka.conf,并启动flume

3.启动Kafka消费者

4.新增测试数据

5.查看Kafka消费者控制台

需求2:Kafka生产者生成的数据利用Flume进行采集,将采集到的数据打印到Flume的控制台上。

1编辑kafka-flume.conf,并启动flume

2.启动Kafka生产者,并在生产者种写入数据

3.查看flume采集的数据

DStream转换

DStream 上的操作与 RDD 的类似,分为 Transformations(转换)和 Output Operations(输出)两种,此外转换操作中还有一些比较特殊的原语,如:updateStateByKey()、transform()以及各种 Window 相关的原语。

Transform

Transform 允许 DStream 上执行任意的 RDD-to-RDD 函数。即使这些函数并没有在 DStream的 API 中暴露出来,通过该函数可以方便的扩展 Spark API。该函数每一批次调度一次。其实也就是对 DStream 中的 RDD 应用转换。

代码案例

join

两个流之间的 join 需要两个流的批次大小一致,这样才能做到同时触发计算。计算过程就是对当前批次的两个流中各自的 RDD 进行 join,与两个 RDD 的 join 效果相同

代码案例

相关推荐
熙客8 小时前
Kafka:专注高吞吐与实时流处理的分布式消息队列
分布式·中间件·kafka
熊文豪13 小时前
在 openEuler 上部署 Kafka 集群:深度性能评测与优化指南
分布式·kafka·openeuler
陈果然DeepVersion1 天前
Java大厂面试真题:Spring Boot+Kafka+AI智能客服场景全流程解析(十)
java·spring boot·ai·kafka·面试题·向量数据库·rag
陈果然DeepVersion1 天前
Java大厂面试真题:Spring Boot+Kafka+AI智能客服场景全流程解析(十一)
java·spring boot·微服务·ai·kafka·面试题·rag
帅次1 天前
系统分析师-案例分析-数据库系统&数据仓库&反规范化技术&NoSQL&内存数据库
大数据·数据库·数据仓库·oracle·kafka·数据库开发·数据库架构
零雲1 天前
java面试:有了解过kafka架构吗,可以详细讲一讲吗
java·面试·kafka
sakoba1 天前
Linux上kafka部署和使用
linux·运维·kafka
一行•坚书1 天前
kafka服务端与客户端如何协作?生产者发送消息分区策略是什么?消费者组分区策略?集群与ACK机制?
java·后端·kafka
HalukiSan1 天前
多线程异常、MQ、Kafka(八股)
面试·kafka
1.01^10002 天前
[7-01-02].第10节:开发应用 - 配置Kafka中消费消息策略
kafka