【报错处理】MR/Spark 使用 BulkLoad 方式传输到 HBase 发生报错: NullPointerException

博主希望能够得到大家的点赞收藏支持!非常感谢

点赞,收藏是情分,不点是本分。祝你身体健康,事事顺心!

Spark 通过 BulkLoad 方式传输到 HBase,我发现会出现空指针异常。简单写下如何解决的。

原理 :首先简单介绍一下什么是 BulkLoad,BulkLoad 是传输到 HBase 的一种传输方式,不是直接在 HBase 里写入数据,这会给HBase增加压力,而是使用 MR/Spark 等先生成 HFile,再批量加载到 HBase,减少 HBase 压力。

问题 :我的 BulkLoad 数据传输任务,突然报错了,空指针异常。Serious Problem,NullPointerException

排查 :我开始以为是 rowkey 是 null,或 rowkey 重复?排查后发现都不是,甚至数据都跟前一天一样,而前一天的成功了,今天的重试了也不行。

解决办法(可能)

sql 复制代码
-- 对所有可能的字段使用 coalesce 函数处理, 处理可能的 null 数据
coalesce(fielda, '')

可能是 BulkLoad 方式生成的 HFile 对空值的处理不够好,会出现这种报错,所以我们的方法就是解决可能出现的空值,改为空字符串等。

最后,我是及未来,祝你变得更强!!

相关推荐
小黑0310 小时前
Spark SQL
大数据·sql·spark
武子康18 小时前
大数据-193 Apache Tez - DAG 作业计算框架 核心解释 工作原理 配置集成
大数据·hive·hadoop·hdfs·apache·hbase·mapreduce
Ivanqhz20 小时前
Spark RDD
大数据·分布式·spark
小黑0320 小时前
Spark SQL DSL
大数据·sql·spark
Mephisto.java1 天前
【大数据学习 | Zookeeper】客户端命令行操作
linux·hadoop·sql·mysql·zookeeper·hbase
lisacumt2 天前
【spark】spark structrued streaming读写kafka 使用kerberos认证
大数据·spark·kafka
字节数据平台2 天前
火山引擎数据飞轮线上研讨会即将开启,助力消费品牌双十一造爆款
hadoop·hbase·1024程序员节
zhulin10283 天前
python+大数据+基于Hadoop的个性化图书推荐系统【内含源码+文档+部署教程】
hadoop·spring boot·spark·1024程序员节
B站计算机毕业设计超人3 天前
计算机毕业设计PySpark+大模型高考推荐系统 高考分数线预测 高考爬虫 协同过滤推荐算法 Vue.js Django Hadoop 大数据毕设
大数据·爬虫·深度学习·机器学习·spark·推荐算法·1024程序员节
yangyong0913 天前
Spark教程5-基本结构化操作
spark