Flume——sink连接Hive的参数配置(属性参数)

目录

配置文件官网

可以参考官网的说明

属性参数

属性名 默认值 说明
type 无(必须指定) 组件类型名称,必须是"hive"
hive.metastore 无(必须指定) 元数据仓库地址,例如:thrift://node3:9083
hive.database 无(必须指定) 数据库名称
hive.table 无(必须指定) 表名
hive.partition 无(可选) 逗号分割的分区值,标识写到哪个分区。可以包含逃逸字符。例如,如果表分区字段为(continent: string, country: string, time: string),则"Asia,India,2030-05-26-01-21"表示continent为Asia,country为India,time是2030-05-26-01-21
callTimeout 10000 Hive和HDFS的IO操作超时时间,例如openTxn、write、commit、abort等操作。单位为毫秒
batchSize 15000 一个Hive事务允许写的事件最大数量
roundValue 1 控制多长时间生成一个文件夹的时间的值
roundUnit minute 控制多长时间生成一个文件夹的单位,可选值有:second、minute、hour

例子

bash 复制代码
# 定义Flume agent的名称
agent.name = a1

# 定义agent中的sources(数据源)、channels(通道)和sinks(数据目的地)
a1.sources = r1
a1.channels = c1
a1.sinks = k1

# 配置source,这里使用netcat source,用于从网络接收数据
a1.sources.r1.type = netcat
# 设置netcat source监听的IP地址和端口
a1.sources.r1.bind = 0.0.0.0
a1.sources.r1.port = 44444

# 配置channel,这里使用memory channel,用于在内存中存储事件
a1.channels.c1.type = memory
# 设置memory channel的容量
a1.channels.c1.capacity = 10000
# 设置memory channel的事务容量
a1.channels.c1.transactionCapacity = 1000

# 配置sink,这里使用hive sink,用于将数据写入Hive表
a1.sinks.k1.type = hive
# 设置Hive元数据存储的Thrift服务器地址
a1.sinks.k1.hive.metastore = thrift://node3:9083
# 设置要写入数据的Hive数据库名称
a1.sinks.k1.hive.database = my_database
# 设置要写入数据的Hive表名称
a1.sinks.k1.hive.table = my_table
# 设置分区值,用于将数据写入指定的Hive表分区
a1.sinks.k1.hive.partition = Asia,India,2030-05-26-01-21
# 设置Hive和HDFS的IO操作超时时间(毫秒)
a1.sinks.k1.callTimeout = 15000
# 设置一个Hive事务允许写的最大事件数量
a1.sinks.k1.batchSize = 20000
# 设置控制生成文件夹频率的值(这里设置为1,但具体含义取决于roundUnit)
a1.sinks.k1.roundValue = 1
# 设置控制生成文件夹频率的单位(这里设置为hour,即每小时生成一个文件夹)
a1.sinks.k1.roundUnit = hour

# 将source绑定到channel,以便source接收到的事件可以通过channel传输
a1.sources.r1.channels = c1
# 将sink绑定到channel,以便channel中的事件可以被sink处理并写入Hive表
a1.sinks.k1.channel = c1
相关推荐
BYSJMG36 分钟前
计算机毕设选题:基于Python+MySQL校园美食推荐系统【源码+文档+调试】
大数据·开发语言·python·mysql·django·课程设计·美食
索迪迈科技2 小时前
Flink Task线程处理模型:Mailbox
java·大数据·开发语言·数据结构·算法·flink
深空数字孪生7 小时前
储能调峰新实践:智慧能源平台如何保障风电消纳与电网稳定?
大数据·人工智能·物联网
百胜软件@百胜软件8 小时前
胜券POS:打造智能移动终端,让零售智慧运营触手可及
大数据
摩羯座-185690305949 小时前
Python数据可视化基础:使用Matplotlib绘制图表
大数据·python·信息可视化·matplotlib
在未来等你9 小时前
Kafka面试精讲 Day 13:故障检测与自动恢复
大数据·分布式·面试·kafka·消息队列
jiedaodezhuti9 小时前
Flink通讯超时问题深度解析:Akka AskTimeoutException解决方案
大数据·flink
庄小焱9 小时前
大数据存储域——Kafka实战经验总结
大数据·kafka·大数据存储域
zskj_qcxjqr11 小时前
告别传统繁琐!七彩喜艾灸机器人:一键开启智能养生新时代
大数据·人工智能·科技·机器人
每日新鲜事11 小时前
Saucony索康尼推出全新 WOOOLLY 运动生活羊毛系列 生动无理由,从专业跑步延展运动生活的每一刻
大数据·人工智能