半小时速通flume-flume概述

文章目录

1.Flume概述

  • Flume是Cloudera提供的一个高可用,高可靠的,分布式海量数据日志采集,聚合,传输系统。基于流式架构,动态实现,上传一条采集一条。
  • 企业开发,flume-->kafka集群-->hdfs

  • flume动态采集---实时;若做离线业务,完全可以使用put命令

2.Flume架构

  • 三个关键组件:Source ,Channel,Sink

  • Channel做缓冲,原因是Source,Sink速度不一致。

1.Agent

  • agent是一个JVM进程,它以时间的形式将数据从源头送至目的。
  • 三个部分组成Source、Sink、Channel

2.Source

  • 内部有很多的类型,不同的类型就是对接不同的数据源的

3.Sink

  • Sink指的是传输落点;也就是将数据传输到哪

logger是打印到控制台,测试常用。

4.Channel

  • 做缓冲的地方;
  • Memory Channel、File Channel、Kafka Channel

存到内存和磁盘各有优略;安全性和速度角度考虑。

5.Event

  • Event表示将我们的数据做了一次序列化
相关推荐
哲讯智能科技36 分钟前
SAP环保-装备制造领域创新解决方案
大数据
钡铼技术物联网关41 分钟前
Ubuntu工控卫士在制造企业中的应用案例
大数据·人工智能·物联网·边缘计算
闯闯桑2 小时前
scala 中的@BeanProperty
大数据·开发语言·scala
闯闯桑2 小时前
Scala 中的隐式转换
大数据·scala
用户Taobaoapi20144 小时前
淘宝商品列表查询 API 接口详解
大数据
涛思数据(TDengine)5 小时前
taosd 写入与查询场景下压缩解压及加密解密的 CPU 占用分析
大数据·数据库·时序数据库·tdengine
DuDuTalk5 小时前
DuDuTalk接入DeepSeek,重构企业沟通数字化新范式
大数据·人工智能
大数据追光猿5 小时前
Qwen 模型与 LlamaFactory 结合训练详细步骤教程
大数据·人工智能·深度学习·计算机视觉·语言模型
Elastic 中国社区官方博客6 小时前
使用 Elastic-Agent 或 Beats 将 Journald 中的 syslog 和 auth 日志导入 Elastic Stack
大数据·linux·服务器·elasticsearch·搜索引擎·信息可视化·debian
对许7 小时前
Hadoop的运行模式
大数据·hadoop·分布式