【hadoop】Flume的相关介绍

1 概述

Flume是Cloudera开发的一个分布式的、可靠的、高可用的系统,它能够将不同数据源的海量日志数据进行高效收集、聚合、移动,最后存储到一个中心化的数据存储系统中。随着互联网的发展,特别是移动互联网的兴起,产生了海量的用户日志信息,为了实时分析和挖掘用户需求,需要使用Flume高效快速采集用户日志,同时对日志进行聚合避免小文件的产生,然后将聚合后的数据通过管道移动到存储系统进行后续的数据分析和挖掘。

2 作用

3 架构


Source

Source负责接收外部源发送过来的数据,指定各种类型的Source以使用各种方式接收数据。


Sink

Sink负责消费Channel中的数据,然后发送给外部数据存储中心。


Channel

Channel是位于Source和Sink之间的缓冲区,它的存在使得Source和Sink可以运作在不同的数据处理速率上。

相关推荐
SirLancelot13 小时前
StarRocks-基本介绍(一)基本概念、特点、适用场景
大数据·数据库·数据仓库·sql·数据分析·database·数据库架构
阑梦清川4 小时前
es的docker部署和docker相关的可可视化面板工具介绍
大数据·elasticsearch·docker
Mr_LiYYD5 小时前
elasticsearch数据迁移
大数据·elasticsearch·搜索引擎
dalianwawatou5 小时前
GitLab 代码基础操作清单
大数据·elasticsearch·gitlab
Costrict6 小时前
解锁新阵地!CoStrict 现已支持 JetBrains 系列 IDE
大数据·ide·人工智能·深度学习·自然语言处理·ai编程·visual studio
阿里云大数据AI技术6 小时前
云栖实录|阿里云 Milvus:AI 时代的专业级向量数据库
大数据·人工智能·搜索引擎
随心............6 小时前
在开发过程中遇到问题如何解决,以及两个经典问题
hive·hadoop·spark
vivo互联网技术7 小时前
vivo HDFS EC 大规模落地实践
大数据·hdfs
QYResearch7 小时前
2025-2031年我国葡萄糖年产量和市场规模
大数据
QYResearch8 小时前
2025-2031年全球磷矿石市场规模和增长趋势
大数据