flume异常关闭文件修复方法

flume在从kafka采集数据后,会将数据写入到hdfs文件中。在写入过程中,由于集群负载、资源或者网络原因会导致文件没有正常关闭,即文件表现为tmp格式,这种格式的文件从hdfs往hive分区load数据时,会导致数据无法查询问题。

复制代码
    flume写入文件正常关闭的过程会有一个create和close的过程,通过如下命令对没有正常关闭的文件进行修复。
bash 复制代码
hdfs debug recoverLease -path 异常文件路径 -retries 10

例如:

bash 复制代码
hdfs debug recoverLease -path /warehouse/tablespace/managed/hive/ods.db/test/2023-11-06/.tempFlumeData.1699239988831.tmp -retries 10
复制代码
    文件处理后,再进行load操作
bash 复制代码
load data inpath '路径' into table ods.表名 partition(dt='2023-11-06');

问题解决。

相关推荐
菲路普科技39 分钟前
作业过程管控——看安全生产信息化平台全方位解决方案
大数据·人工智能
叫我黎大侠43 分钟前
使用 LibreOffice 实现各种文档格式转换(支持任何开发语言调用 和 Linux + Windows 环境)[全网首发,保姆级教程,建议收藏]
java·大数据·linux·开发语言·python·c#·php
世润1 小时前
Flink基本理解
大数据·flink
189228048611 小时前
NV054NV057美光固态闪存NV059NV062
大数据·人工智能
Ultipa2 小时前
云计算与大数据进阶 | 27、存储系统如何突破容量天花板?可扩展架构的核心技术与实践—— 分布式、弹性扩展、高可用的底层逻辑(上)
大数据·架构·云计算
北漂老男孩4 小时前
Flink基于Yarn多种启动方式详解
java·大数据·flink
敖云岚4 小时前
【Hadoop】大数据技术之 HDFS
大数据·hadoop·hdfs
MZWeiei6 小时前
Flume的大概简单介绍
大数据·flume
maozexijr6 小时前
Flink 非确定有限自动机NFA
大数据·flink
vlln6 小时前
机器学习中的维度、过拟合、降维
大数据·人工智能·深度学习·机器学习