flume异常关闭文件修复方法

flume在从kafka采集数据后,会将数据写入到hdfs文件中。在写入过程中,由于集群负载、资源或者网络原因会导致文件没有正常关闭,即文件表现为tmp格式,这种格式的文件从hdfs往hive分区load数据时,会导致数据无法查询问题。

复制代码
    flume写入文件正常关闭的过程会有一个create和close的过程,通过如下命令对没有正常关闭的文件进行修复。
bash 复制代码
hdfs debug recoverLease -path 异常文件路径 -retries 10

例如:

bash 复制代码
hdfs debug recoverLease -path /warehouse/tablespace/managed/hive/ods.db/test/2023-11-06/.tempFlumeData.1699239988831.tmp -retries 10
复制代码
    文件处理后,再进行load操作
bash 复制代码
load data inpath '路径' into table ods.表名 partition(dt='2023-11-06');

问题解决。

相关推荐
CSTechEi1 小时前
【IEEE/EI/Scopus检索】2025年第五届机器学习与大数据管理国际会议 (MLBDM 2025)
大数据·人工智能·机器学习·大数据管理·ei学术会议
萤火虫儿飞飞4 小时前
关爱敏宝健康成长,Witsbb健敏思“防敏行动,无敏100+”学术交流会在人民日报社举行
大数据·人工智能
isNotNullX5 小时前
什么是数据清洗?数据清洗有哪些步骤?
大数据·数据库·数据仓库·数据治理·元数据
打码人的日常分享8 小时前
智慧园区建设资料合集(Wordppt原件)
大数据·物联网·流程图·智慧城市·制造
洗发水很好用8 小时前
制造部门的转型目标与场景痛点
大数据·数据库·制造
API_technology11 小时前
亚马逊 API 实战:商品详情页实时数据采集接口开发与调用
大数据·开发语言·python·数据挖掘
lilye6616 小时前
精益数据分析(101/126):SaaS商业模式优化与用户生命周期价值提升策略
大数据·数据挖掘·数据分析
isfox1 天前
Hadoop 版本进化论:从 1.0 到 2.0,架构革命全解析
大数据·后端
星环科技TDH社区版1 天前
星环科技产品可存储的表格式功能介绍以及创建示例
大数据·数据库
百度Geek说1 天前
百度垂搜数据管理系统弹性调度优化实践
大数据·搜索引擎