flume整合Kafka和spark-streaming核心编程

flume整合Kafka

需求1:利用flume监控某目录中新生成的文件,将监控到的变更数据发送给kafka,kafka将收到的数据打印到控制台:

1.查看topic

2.编辑flume-Kafka.conf,并启动flume

3.启动Kafka消费者

4.新增测试数据

5.查看Kafka消费者控制台

需求2:Kafka生产者生成的数据利用Flume进行采集,将采集到的数据打印到Flume的控制台上。

1编辑kafka-flume.conf,并启动flume

2.启动Kafka生产者,并在生产者种写入数据

3.查看flume采集的数据

DStream转换

DStream 上的操作与 RDD 的类似,分为 Transformations(转换)和 Output Operations(输出)两种,此外转换操作中还有一些比较特殊的原语,如:updateStateByKey()、transform()以及各种 Window 相关的原语。

Transform

Transform 允许 DStream 上执行任意的 RDD-to-RDD 函数。即使这些函数并没有在 DStream的 API 中暴露出来,通过该函数可以方便的扩展 Spark API。该函数每一批次调度一次。其实也就是对 DStream 中的 RDD 应用转换。

代码案例

join

两个流之间的 join 需要两个流的批次大小一致,这样才能做到同时触发计算。计算过程就是对当前批次的两个流中各自的 RDD 进行 join,与两个 RDD 的 join 效果相同

代码案例

相关推荐
枫叶V11 小时前
Kafka 怎么保证消息的顺序性
kafka
rafael(一只小鱼)11 小时前
如何解决报错wmic不是内部或外部命令--kafka场景下
windows·分布式·kafka
AutoMQ12 小时前
360 如何用 AutoMQ 解决千亿级 Kafka 冷读难题
kafka·消息队列·云计算
半桶水专家13 小时前
Kafka Topic 管理命令 kafka-topics.sh 详解
分布式·kafka
FlyChat13 小时前
从零到亿:拆解“智搜搜索”工业化引擎——PHP如何驯服ElasticSearch、Kafka与多语言爬虫巨兽
elasticsearch·kafka·php
ClouGence13 小时前
数据迁移同步工具 CloudCanal-v5.5.0.0 发布,支持 RETL(定时扫描同步)
数据库·mysql·postgresql·oracle·sqlserver·kafka·etl
万琛13 小时前
【Flink_CEP】MySQL 动态规则 + Kafka 实时流 + Flink CEP 后缀收集的实战方案
mysql·flink·kafka
丸辣,我代码炸了13 小时前
如何手搓序列化器(以java为例)
java·开发语言·kafka
霸道流氓气质13 小时前
Springboot集成Kafka入门流程及示例代码
spring boot·kafka
蓝眸少年CY1 天前
Flume-使用与详解
大数据·flume