解决一个Sqoop抽数慢的问题,yarn的ATSv2嵌入式HBASE崩溃引起

新搭建的一个Hadoop环境,用Sqoop批量抽数的时候发现特别慢,我们正常情况下是一个表一分钟左右,批量抽十几个表,也就是10分钟的样子,结果发现用了2个小时:

查看yarn日志

发现有如下情况:

主要有两个情况:

1.有大量的等待日志:Waiting for AsyncDispatcher to drain.Thread state is :WAITING

2.异常中断:Interrupted while publishing entity

经网上查询得知,这个是因为ATSv2的嵌入式HBASE崩溃,需要重置HBASE数据库

步骤如下

1. 停止yarn

在ambari页面上停止yarn

2. 删除zk上的ATSv2 Znode
复制代码
rmr /atsv2-hbase-unsecure或rmr /atsv2-hbase-secure
3. 删除HDFS上的Hbase嵌入式数据库
复制代码
hdfs dfs -mv /atsv2/hbase/tmp/
4. 启动yarn

在ambari页面上重新启动yarn

再次重跑任务,时间已经明显的降低了。

相关推荐
B站_计算机毕业设计之家20 小时前
基于大数据的短视频数据分析系统 Spark哔哩哔哩视频数据分析可视化系统 Hadoop大数据技术 情感分析 舆情分析 爬虫 推荐系统 协同过滤推荐算法 ✅
大数据·hadoop·爬虫·spark·音视频·短视频·1024程序员节
洛克大航海1 天前
集群环境安装与部署 Hadoop
大数据·hadoop·ubuntu·集群部署 hadoop
笨蛋少年派1 天前
Hadoop High Availability 简介
大数据·hadoop·分布式
二进制_博客2 天前
sqoop从hive导出mysql常见错误汇总
hive·mysql·sqoop
hzp6663 天前
spark动态分区参数spark.sql.sources.partitionOverwriteMode
大数据·hive·分布式·spark·etl·partitionover
yumgpkpm3 天前
CMP(类ClouderaCDP7.3(404次编译) )完全支持华为鲲鹏Aarch64(ARM),粉丝数超过200就开源下载
hive·hadoop·redis·mongodb·elasticsearch·hbase·big data
励志成为糕手4 天前
Hive数据仓库:架构原理与实践指南
大数据·数据仓库·hive·1024程序员节·hql
B站_计算机毕业设计之家4 天前
Spark微博舆情分析系统 情感分析 爬虫 Hadoop和Hive 贴吧数据 双平台 讲解视频 大数据 Hadoop ✅
大数据·hadoop·爬虫·python·数据分析·1024程序员节·舆情分析
大叔_爱编程4 天前
基于随机森林算法的Boss直聘数据分析及可视化-hadoop+django+spider
hadoop·django·1024程序员节·spider·随机森林算法·boss直聘
毕设源码-赖学姐4 天前
【开题答辩全过程】以基于Hadoop的电商数据分析系统为例,包含答辩的问题和答案
大数据·hadoop·分布式·1024程序员节