【hadoop】Flume的相关介绍

1 概述

Flume是Cloudera开发的一个分布式的、可靠的、高可用的系统,它能够将不同数据源的海量日志数据进行高效收集、聚合、移动,最后存储到一个中心化的数据存储系统中。随着互联网的发展,特别是移动互联网的兴起,产生了海量的用户日志信息,为了实时分析和挖掘用户需求,需要使用Flume高效快速采集用户日志,同时对日志进行聚合避免小文件的产生,然后将聚合后的数据通过管道移动到存储系统进行后续的数据分析和挖掘。

2 作用

3 架构


Source

Source负责接收外部源发送过来的数据,指定各种类型的Source以使用各种方式接收数据。


Sink

Sink负责消费Channel中的数据,然后发送给外部数据存储中心。


Channel

Channel是位于Source和Sink之间的缓冲区,它的存在使得Source和Sink可以运作在不同的数据处理速率上。

相关推荐
Web极客码14 分钟前
在WordPress上添加隐私政策页面
大数据·人工智能·wordpress
Apache Flink32 分钟前
Flink在B站的大规模云原生实践
大数据·云原生·flink
itachi-uchiha2 小时前
Docker部署Hive大数据组件
大数据·hive·docker
viperrrrrrrrrr72 小时前
大数据学习(131)-Hive数据分析函数总结
大数据·hive·学习
lifallen3 小时前
Flink checkpoint
java·大数据·算法·flink
Leo.yuan5 小时前
API是什么意思?如何实现开放API?
大数据·运维·数据仓库·人工智能·信息可视化
禺垣6 小时前
知识图谱技术概述
大数据·人工智能·深度学习·知识图谱
后端码匠6 小时前
Spark 单机模式部署与启动
大数据·分布式·spark
疯狂的沙粒7 小时前
如何通过git命令查看项目连接的仓库地址?
大数据·git·elasticsearch
随缘而动,随遇而安8 小时前
第七十四篇 高并发场景下的Java并发容器:用生活案例讲透技术原理
java·大数据·后端