【hadoop】Flume的相关介绍

1 概述

Flume是Cloudera开发的一个分布式的、可靠的、高可用的系统,它能够将不同数据源的海量日志数据进行高效收集、聚合、移动,最后存储到一个中心化的数据存储系统中。随着互联网的发展,特别是移动互联网的兴起,产生了海量的用户日志信息,为了实时分析和挖掘用户需求,需要使用Flume高效快速采集用户日志,同时对日志进行聚合避免小文件的产生,然后将聚合后的数据通过管道移动到存储系统进行后续的数据分析和挖掘。

2 作用

3 架构


Source

Source负责接收外部源发送过来的数据,指定各种类型的Source以使用各种方式接收数据。


Sink

Sink负责消费Channel中的数据,然后发送给外部数据存储中心。


Channel

Channel是位于Source和Sink之间的缓冲区,它的存在使得Source和Sink可以运作在不同的数据处理速率上。

相关推荐
l11220603几秒前
GEO 优化公司选品指南:江苏一网推的阶梯式服务核心竞争力
大数据·人工智能
chatexcel14 分钟前
什么是AI的SOUL?如何定制专属AI助理
大数据·人工智能
财迅通Ai44 分钟前
海立股份子公司参展AWE2026 以创新科技赋能行业转型升级
大数据·人工智能·物联网
冯RI375II694871 小时前
TIC机构审核CPC认证的周期是多久
大数据
T06205141 小时前
【实证分析】A股上市公司企业组织韧性数据集(1991-2024年)
大数据
故事和你911 小时前
sdut-程序设计基础Ⅰ-期末测试(重现)
大数据·开发语言·数据结构·c++·算法·蓝桥杯·图论
跨境卫士苏苏1 小时前
通过配件标准化降低售后复杂度
大数据·人工智能·跨境电商·亚马逊·营销策略
success1121 小时前
hadoop集群准备工作
大数据·hadoop·chrome
Francek Chen1 小时前
【大数据存储与管理】分布式数据库HBase:04 HBase的实现原理
大数据·数据库·hadoop·分布式·hbase
金融Tech趋势派2 小时前
企业微信私域流量:如何用企业微信SCRM从0到1搭建高转化客户运营体系
大数据·人工智能·企业微信·scrm