【报错处理】MR/Spark 使用 BulkLoad 方式传输到 HBase 发生报错: NullPointerException

博主希望能够得到大家的点赞收藏支持!非常感谢

点赞,收藏是情分,不点是本分。祝你身体健康,事事顺心!

Spark 通过 BulkLoad 方式传输到 HBase,我发现会出现空指针异常。简单写下如何解决的。

原理 :首先简单介绍一下什么是 BulkLoad,BulkLoad 是传输到 HBase 的一种传输方式,不是直接在 HBase 里写入数据,这会给HBase增加压力,而是使用 MR/Spark 等先生成 HFile,再批量加载到 HBase,减少 HBase 压力。

问题 :我的 BulkLoad 数据传输任务,突然报错了,空指针异常。Serious Problem,NullPointerException

排查 :我开始以为是 rowkey 是 null,或 rowkey 重复?排查后发现都不是,甚至数据都跟前一天一样,而前一天的成功了,今天的重试了也不行。

解决办法(可能)

sql 复制代码
-- 对所有可能的字段使用 coalesce 函数处理, 处理可能的 null 数据
coalesce(fielda, '')

可能是 BulkLoad 方式生成的 HFile 对空值的处理不够好,会出现这种报错,所以我们的方法就是解决可能出现的空值,改为空字符串等。

最后,我是及未来,祝你变得更强!!

相关推荐
huohuopro16 小时前
HBase 伪分布式环境安装指南
数据库·分布式·hbase
hf20001217 小时前
零成本迁移,原地加速,成本降低60%:火花思维基于云器Lakehouse升级实践
大数据·分布式·spark·lakehouse
huohuopro18 小时前
Hbase学习
学习·oracle·hbase
talen_hx29618 小时前
《零基础入门Spark》学习笔记 Day 04
大数据·笔记·学习·spark
D愿你归来仍是少年19 小时前
Apache Spark 详细讲解第 7 章:Shuffle 机制深度解析
大数据·spark·apache
Code知行合壹2 天前
Spark使用总结
大数据·分布式·spark
zhojiew2 天前
[INFRA] EMR集群中Hive和Spark集成Glue Data Catalog过程的深入分析
hive·hadoop·spark·aws·bigdata
鸿乃江边鸟3 天前
Spark DynamicJoinSelection 规则根据AQE统计信息动态调整Join策略
大数据·spark
鸿乃江边鸟3 天前
从 SortExec 的排序来谈 Spark Tungsten 计划中的缓存友好特性
大数据·spark
阿里云大数据AI技术3 天前
Celeborn 如何让 EMR Serverless Spark 的 Shuffle 舒心、放心、安心
大数据·spark