【hadoop】Flume的相关介绍

1 概述

Flume是Cloudera开发的一个分布式的、可靠的、高可用的系统,它能够将不同数据源的海量日志数据进行高效收集、聚合、移动,最后存储到一个中心化的数据存储系统中。随着互联网的发展,特别是移动互联网的兴起,产生了海量的用户日志信息,为了实时分析和挖掘用户需求,需要使用Flume高效快速采集用户日志,同时对日志进行聚合避免小文件的产生,然后将聚合后的数据通过管道移动到存储系统进行后续的数据分析和挖掘。

2 作用

3 架构


Source

Source负责接收外部源发送过来的数据,指定各种类型的Source以使用各种方式接收数据。


Sink

Sink负责消费Channel中的数据,然后发送给外部数据存储中心。


Channel

Channel是位于Source和Sink之间的缓冲区,它的存在使得Source和Sink可以运作在不同的数据处理速率上。

相关推荐
嘉禾望岗50320 小时前
Yarn介绍与HA搭建
大数据·hadoop·yarn
小麦矩阵系统永久免费20 小时前
小麦矩阵系统:让短视频分发实现抖音快手小红书全覆盖
大数据·人工智能·矩阵
IT研究室21 小时前
大数据毕业设计选题推荐-基于大数据的国家药品采集药品数据可视化分析系统-Spark-Hadoop-Bigdata
大数据·hadoop·信息可视化·spark·毕业设计·数据可视化·bigdata
Lx35221 小时前
Hadoop性能瓶颈分析:从JVM到磁盘IO的全链路优化
大数据·hadoop
大数据点灯人21 小时前
【Flink】Flink Runtime 开发指南
大数据·flink
一个java开发1 天前
distributed.client.Client 用户可调用函数分析
大数据·python
字节数据平台1 天前
一客一策:Data Agent 如何重构大模型时代的智能营销
大数据·人工智能·重构
字节跳动数据平台1 天前
《十六进制觉醒》:与我们一起,探索AI与数据的无限可能!
大数据
道一云黑板报1 天前
Spark生态全景图:图计算与边缘计算的创新实践
大数据·性能优化·spark·边缘计算
Lansonli1 天前
大数据Spark(六十三):RDD-Resilient Distributed Dataset
大数据·分布式·spark