Flume采集Kafka并把数据sink到OSS

安装环境

  1. Java环境, 略 (Flume依赖Java)
  2. Flume下载, 略
  3. Scala环境, 略 (Kafka依赖Scala)
  4. Kafak下载, 略
  5. Hadoop下载, 略 (不需要启动, 写OSS依赖)

配置Hadoop

下载JindoSDK(连接OSS依赖), 下载地址Github

解压后配置环境变量

复制代码
export JINDOSDK_HOME=/usr/lib/jindosdk-x.x.x
export HADOOP_CLASSPATH=$HADOOP_CLASSPATH:${JINDOSDK_HOME}/lib/*

修改Hadoop配置, core-site.xml

复制代码
<property>
        <name>fs.oss.credentials.provider</name>
        <value>com.aliyun.jindodata.oss.auth.SimpleCredentialsProvider</value>
    </property>
    <property>
        <name>fs.oss.accessKeyId</name>
        <value>xxxx</value>
    </property>
    <property>
        <name>fs.oss.accessKeySecret</name>
        <value>xxxx</value>
    </property>
    <property>
        <name>fs.oss.endpoint</name>
        <value>xxxxx</value>
    </property>
    <property>
        <name>fs.AbstractFileSystem.oss.impl</name>
        <value>com.aliyun.jindodata.oss.JindoOSS</value>
    </property>
    <property>
        <name>fs.oss.impl</name>
        <value>com.aliyun.jindodata.oss.JindoOssFileSystem</value>
    </property>

配置可参考非EMR集群接入OSS-HDFS服务快速入门

配置Flume

此部分全文最关键, 请仔细看

  1. 基础配置部分, Flume配置

    a1.sources = source1
    a1.sinks = k1
    a1.channels = c1

    a1.sources.source1.type = org.apache.flume.source.kafka.KafkaSource
    a1.sources.source1.channels = c1
    a1.sources.source1.kafka.bootstrap.servers = xxx
    a1.sources.source1.kafka.topics = test
    a1.sources.source1.kafka.consumer.group.id = flume-sink-group # 消费者组, 云组件需要先在管理后台创建
    a1.sources.source1.kafka.consumer.auto.offset.reset = earliest # 从头消费Kafka里数据

    a1.sinks.k1.channel = c1
    a1.sinks.k1.type = hdfs
    a1.sinks.k1.hdfs.path = oss://xxx/test/%Y%m%d # 自动按天分文件夹
    a1.sinks.k1.hdfs.fileType=DataStream

    a1.channels.c1.type = memory
    a1.channels.c1.capacity = 1000
    a1.channels.c1.transactionCapacity = 1000

可参考使用Flume同步EMR Kafka集群的数据至OSS-HDFS服务

  1. 进阶配置, 根据自己情况按需配置

    a1.sinks.k1.hdfs.rollInterval = 600 # 5分钟切换一个新文件
    a1.sinks.k1.hdfs.rollSize = 134217728 # 或者文件大小达到128M则切换新文件
    a1.sinks.k1.hdfs.rollCount = 0 # 写入多少条数据切换新文件, 0为不限制

我这里是为了防止sink的文件过于零碎, 但因为使用的memory channel, 缓存时间过长容易丢数据

  1. Flume JVM参数

默认启动时-Xmx20m, 过于小了, 加大堆内存可以直接放开flume-env.shJAVA_OPTS的注释

复制代码
export JAVA_OPTS="-Xms100m -Xmx2000m -Dcom.sun.management.jmxremote"
  1. Channel问题
    如果对数据一致性要求较高, 可以把memory channel改用file channel, 请自行研究

XX启动!

几条测试命令

复制代码
bin/zookeeper-server-start.sh config/zookeeper.properties # 启动zookeeper
bin/kafka-server-start.sh config/server.properties # 启动kafak服务

bin/flume-ng agent --conf conf --conf-file conf/flume-conf.properties --name a1 # 启动flume

bin/kafka-console-producer.sh --topic flume-test --bootstrap-server localhost:9092 # 启动一个生产者写测试数据
相关推荐
IT果果日记36 分钟前
给DataX配置加密的方法
大数据·数据库·后端
观望过往2 小时前
Kafka 全方位详细介绍:从架构原理到实践优化
分布式·架构·kafka
微盛AI企微管家3 小时前
企业微信的AI功能更新:智能总结、智能搜索、智能机器人、智能表格,更智能的一体化办公解决方案
大数据·人工智能·数据挖掘
金融Tech趋势派3 小时前
企业微信私域运营代运营:微盛AI・企微管家以四级分层服务助力企业私域落地与增长
大数据·人工智能·企业微信
AI企微观察3 小时前
企业微信如何正确营销获客?精准定位与场景触达的实践框架
大数据·人工智能
金融Tech趋势派4 小时前
企业微信私有化服务商怎么选?从数据安全与定制化需求看适配方向
大数据·人工智能·金融·企业微信·零售
艾莉丝努力练剑4 小时前
【Linux权限 (二)】Linux权限机制深度解析:umask如何决定默认权限与粘滞位的妙用
大数据·linux·服务器·c++·ubuntu·centos·1024程序员节
武子康4 小时前
大数据-140 ClickHouse CollapsingMergeTree详解 外部数据源最小闭环HDFS/MySQL/Kafka
大数据·后端·nosql
文火冰糖的硅基工坊5 小时前
[人工智能-大模型-107]:模型层 - 神经元的功能角色:特征提取与相似度量化
大数据·人工智能
2501_938773995 小时前
《Hadoop 与 Spark 融合路径:基于 Spark on YARN 的部署与调优技巧》
大数据·hadoop·spark