半小时速通flume-flume概述

文章目录

1.Flume概述

  • Flume是Cloudera提供的一个高可用,高可靠的,分布式海量数据日志采集,聚合,传输系统。基于流式架构,动态实现,上传一条采集一条。
  • 企业开发,flume-->kafka集群-->hdfs

  • flume动态采集---实时;若做离线业务,完全可以使用put命令

2.Flume架构

  • 三个关键组件:Source ,Channel,Sink

  • Channel做缓冲,原因是Source,Sink速度不一致。

1.Agent

  • agent是一个JVM进程,它以时间的形式将数据从源头送至目的。
  • 三个部分组成Source、Sink、Channel

2.Source

  • 内部有很多的类型,不同的类型就是对接不同的数据源的

3.Sink

  • Sink指的是传输落点;也就是将数据传输到哪

logger是打印到控制台,测试常用。

4.Channel

  • 做缓冲的地方;
  • Memory Channel、File Channel、Kafka Channel

存到内存和磁盘各有优略;安全性和速度角度考虑。

5.Event

  • Event表示将我们的数据做了一次序列化
相关推荐
marteker19 小时前
凯撒医疗集团和戴尔科技如何通过数据分析改善客户体验
大数据·科技
金融小师妹19 小时前
基于AI多因子模型的黄金价格分析:9连跌后的反弹与约束机制解析
大数据·深度学习·svn·能源
数据科学小丫19 小时前
finebi 案例3 健身房数据分析(建模)
大数据·数据分析·finebi
GIS数据转换器19 小时前
空间智能赋能城市低空数字底座及智能网联系统建设方案
大数据·人工智能·信息可视化·数据挖掘·无人机
tobias.b19 小时前
什么是大数据
大数据
得物技术19 小时前
Claude在得物App数仓的深度集成与效能演进
大数据·人工智能·llm
云境天合小科普19 小时前
禽类疾病检测仪:快速筛查,精准锁定病原体
大数据
Elastic 中国社区官方博客19 小时前
Observabilty:自动化错误分诊 - 从被动到自主
大数据·运维·人工智能·elasticsearch·搜索引擎·自动化·全文检索
zhojiew19 小时前
使用flink agent框架实现流式情感分析的示例
大数据·flink·wpf
AI-小柒19 小时前
DataEyes聚合平台新API接入实战指南:从0到1打通实时数据链路
大数据·运维·开发语言·人工智能·python·自动化·lua