【hadoop】Flume的相关介绍

1 概述

Flume是Cloudera开发的一个分布式的、可靠的、高可用的系统,它能够将不同数据源的海量日志数据进行高效收集、聚合、移动,最后存储到一个中心化的数据存储系统中。随着互联网的发展,特别是移动互联网的兴起,产生了海量的用户日志信息,为了实时分析和挖掘用户需求,需要使用Flume高效快速采集用户日志,同时对日志进行聚合避免小文件的产生,然后将聚合后的数据通过管道移动到存储系统进行后续的数据分析和挖掘。

2 作用

3 架构


Source

Source负责接收外部源发送过来的数据,指定各种类型的Source以使用各种方式接收数据。


Sink

Sink负责消费Channel中的数据,然后发送给外部数据存储中心。


Channel

Channel是位于Source和Sink之间的缓冲区,它的存在使得Source和Sink可以运作在不同的数据处理速率上。

相关推荐
哈哈很哈哈2 分钟前
Spark核心Shuffle详解(二)ShuffleHandler
大数据·分布式·spark
hans汉斯1 小时前
【人工智能与机器人研究】一种库坝系统水下成像探查有缆机器人系统设计模式
大数据·数据库·论文阅读·人工智能·设计模式·机器人·论文笔记
一休哥助手1 小时前
Apache Flink:流处理革命的领导者与新一代大数据计算引擎
大数据·flink·apache
IvanCodes2 小时前
PySpark 安装教程及 WordCount 实战与任务提交
大数据·python·spark·conda
Hello.Reader2 小时前
Flink 有状态与时间敏感流处理从 Concepts 到 API 实战
大数据·flink
人大博士的交易之路2 小时前
龙虎榜——20250929
大数据·数据挖掘·数据分析·缠论·龙虎榜·道琼斯结构
AutoMQ3 小时前
产品动态 | Kafka Linking 迁移工具上线、Table Topic发布、Azure开服
大数据·云原生·云计算
Elastic 中国社区官方博客4 小时前
如何在 vscode 里配置 MCP 并连接到 Elasticsearch
大数据·人工智能·vscode·elasticsearch·搜索引擎·ai·mcp
计算机毕设残哥5 小时前
紧跟大数据技术趋势:食物口味分析系统Spark SQL+HDFS最新架构实现
大数据·hadoop·python·sql·hdfs·架构·spark
CDA数据分析师干货分享6 小时前
【CDA干货】Excel 的 16类常用函数之计算统计类函数
大数据·数据挖掘·数据分析·excel·cda证书·cda数据分析师