踏上大数据第一步:flume

一、概述

Flume是一个分布式、可靠、可用的系统,用于高效地收集、聚合和移动大量日志数据。它旨在从不同的数据源收集数据,并将其存储到中央数据存储中,如HDFS、HBase或Solr等。Flume是Apache旗下的一个顶级项目,是Hadoop生态系统中的一个重要组件。

Flume的主要应用场景包括:

  1. 日志收集 Flume可以高效地从各种Web服务器、应用服务器等收集日志数据,并将其传输到HDFS或其他存储系统中,为后续的数据分析做准备。
  2. 数据采集 除了日志数据,Flume还可以从各种来源采集其他类型的数据,如网络流量数据、社交数据、邮件数据等,并进行数据整理和传输。
  3. 数据传输 Flume可以在不同的节点之间传输数据,支持多种数据源和目的地,可以实现数据的分层传输。
  4. 实时数据流处理 Flume提供了一个简单的基于事件的数据模型,可以结合其他工具(如Spark Streaming)对实时数据流进行处理和分析。
  5. 多路复用 Flume支持复杂的数据流拓扑结构,允许将相同的数据流复制到多个目的地,方便构建冗余备份流或分层数据存储结构。

Flume的架构主要由以下三个核心组件组成:

  • Source:用于从外部获取数据到Flume
  • Channel:用于连接Source和Sink,作为事件的临时存储
  • Sink:用于从Channel中移除事件并且存储到外部系统中

二、安装

安装 Apache Flume 1.9.0 在 Ubuntu 20.04 系统上的步骤如下:

准备工作

在开始安装之前,请确保系统已经安装了JDK,因为 Flume 需要 JDK 来运行。您可以通过运行 java -version 来检查 JDK 是否已安装。如果没有安装可以进行安装。

JDK安装

apt install openjdk-8-jdk

安装完成后,验证Java版本:

java -version

如果出现相应的版本信息说明已经安装成功了。

那么apt install的java安装的目录在哪里呢?

# which java
  /usr/bin/java
# ls -l /usr/bin/java
  /usr/bin/java -> /etc/alternatives/java
# ls -l /etc/alternatives/java
  /etc/alternatives/java -> /usr/lib/jvm/java-8-openjdk-amd64/jre/bin/java

也就是/usr/lib/jvm/java-8-openjdk-amd64就是java安装目录即JAVA_HOME,后面会用到配置。

下载 Flume

  1. 访问 Apache Flume 的官方网站或直接下载 Flume 1.9.0 的压缩包。

  2. 使用 wgetcurl 命令下载 Flume 压缩包到您的系统中。

    wget http://archive.apache.org/dist/flume/1.9.0/apache-flume-1.9.0-bin.tar.gz

安装 Flume

  1. 解压下载的 Flume 压缩包。

    tar -zxvf apache-flume-1.9.0-bin.tar.gz

  2. 将解压后的 Flume 目录移动到 /usr/local/flume

    mv apache-flume-1.9.0-bin /usr/local/flume

配置环境变量

  1. 打开 /etc/profile 文件添加 Flume 的环境变量。

    vim /etc/profile

  2. 在文件末尾添加以下内容:

    export FLUME_HOME=/usr/local/flume
    export PATH=PATH:FLUME_HOME/bin

  3. 更新环境变量。

    source /etc/profile

修改配置

1.复制配置文件

cd /usr/local/flume/conf/
mv flume-conf.properties.template flume-conf.properties
mv flume-env.sh.template flume-env.sh
mv flume-env.ps1.template flume-env.ps1

2.修改flume-env.sh

找到export JAVA_HOME=这条配置,打开前面的#并设置为java_home的目录,见JDK安装

vim flume-env.sh
export JAVA_HOME=/usr/lib/jvm/java-8-openjdk-amd64

验证安装

运行以下命令来验证 Flume 是否安装成功:

flume-ng version

后面有文章介绍flume的具体使用,敬请关注....

相关推荐
2401_883041082 小时前
新锐品牌电商代运营公司都有哪些?
大数据·人工智能
青云交2 小时前
大数据新视界 -- 大数据大厂之 Impala 性能优化:融合机器学习的未来之路(上 (2-1))(11/30)
大数据·计算资源·应用案例·数据交互·impala 性能优化·机器学习融合·行业拓展
Json_181790144805 小时前
An In-depth Look into the 1688 Product Details Data API Interface
大数据·json
Qspace丨轻空间7 小时前
气膜场馆:推动体育文化旅游创新发展的关键力量—轻空间
大数据·人工智能·安全·生活·娱乐
Elastic 中国社区官方博客8 小时前
如何将数据从 AWS S3 导入到 Elastic Cloud - 第 3 部分:Elastic S3 连接器
大数据·elasticsearch·搜索引擎·云计算·全文检索·可用性测试·aws
Aloudata9 小时前
从Apache Atlas到Aloudata BIG,数据血缘解析有何改变?
大数据·apache·数据血缘·主动元数据·数据链路
水豚AI课代表9 小时前
分析报告、调研报告、工作方案等的提示词
大数据·人工智能·学习·chatgpt·aigc
拓端研究室TRL12 小时前
【梯度提升专题】XGBoost、Adaboost、CatBoost预测合集:抗乳腺癌药物优化、信贷风控、比特币应用|附数据代码...
大数据
黄焖鸡能干四碗12 小时前
信息化运维方案,实施方案,开发方案,信息中心安全运维资料(软件资料word)
大数据·人工智能·软件需求·设计规范·规格说明书
编码小袁12 小时前
探索数据科学与大数据技术专业本科生的广阔就业前景
大数据