Spark大数据集群日常开发过程遇到的异常及解决思路汇总

总结/朱季谦

一、出现java.lang.IllegalAccessError: tried to access method com.google.common.base.Stopwatch.()V from class org.apache.hadoop.hbase.zookeeper.MetaTableLocator

在新项目上创建以下Scala代码去连接Hbase集群，用来判断Hbase是否存在某张表。

kotlin 复制代码

//离线Hbase
val conf: Configuration = HBaseConfiguration.create()
conf.set("hbase.zookeeper.quorum","192.168.1.200")
conf.set("hbase.zookeeper.property.clientPort","2181")
// 创建HBase连接
val connection = ConnectionFactory.createConnection(conf)
val hbaseAdmin = connection.getAdmin
val tables = Set("SYSTEM_LOG")
val synTable = TableName.valueOf(tableName)
val tableExist = hbaseAdmin.tableExists(synTable)

在测试运行时，出现了以下异常：

Exception in thread "main" org.apache.hadoop.hbase.DoNotRetryIOException: java.lang.IllegalAccessError: tried to access method com.google.common.base.Stopwatch.()V from class org.apache.hadoop.hbase.zookeeper.MetaTableLocator

检查发现是因为maven里引入的hbase-client、spark-core等众多依赖包里都含有com.google.guava包，这就会出现各个guava包冲突问题，进而导致出现 tried to access method com.google.common.base.Stopwatch.异常问题。

我们可以通过maven的maven-help插件来检查com.google.guava包冲突问题，maven-help插件的引入与使用，我在另一篇博客里有介绍过------Maven Helper插件------实现一键Maven依赖冲突问题

在maven里切换至【Dependency Analyzer】栏，在搜索框输入冲突包guava，即会出现，guava都被哪些包依赖了，当多个组件包都依赖了同一个包但又不同版本时，很容易久出现各种冲突。红色部分就是表示有冲突的依赖包版本------

选中对应想去除的包，右击点击Exclude即可一键exclusion。

最后，单独引入一个com.google.guava包，我的hbase是1.x版本的，引入guava-15版本的可以解决。

xml 复制代码

<dependency>
    <groupId>com.google.guava</groupId>
    <artifactId>guava</artifactId>
    <version>15.0</version>
</dependency>

二、出现org.apache.hadoop.hbase.NamespaceNotFoundException: SYSTEM

在创建带有命名空间的表时，例如创建表名为SYSTEM:SYSTEM_LOG时出现以下异常------

Caused by: org.apache.hadoop.hbase.ipc.RemoteWithExtrasException(org.apache.hadoop.hbase.NamespaceNotFoundException): org.apache.hadoop.hbase.NamespaceNotFoundException: SYSTEM

at org.apache.hadoop.hbase.master.HMaster.ensureNamespaceExists(HMaster.java:2090)

at org.apache.hadoop.hbase.master.HMaster.createTable(HMaster.java:1270)

at org.apache.hadoop.hbase.master.MasterRpcServices.createTable(MasterRpcServices.java:399)

at org.apache.hadoop.hbase.protobuf.generated.MasterProtos <math xmlns="http://www.w3.org/1998/Math/MathML"> M a s t e r S e r v i c e MasterService </math>MasterService2.callBlockingMethod(MasterProtos.java:42436)

at org.apache.hadoop.hbase.ipc.RpcServer.call(RpcServer.java:2033)

at org.apache.hadoop.hbase.ipc.CallRunner.run(CallRunner.java:107)

at org.apache.hadoop.hbase.ipc.RpcExecutor.consumerLoop(RpcExecutor.java:130)

at org.apache.hadoop.hbase.ipc.RpcExecutor$1.run(RpcExecutor.java:107)

at java.lang.Thread.run(Thread.java:748)

此时Hbase里并没有事先创建该SYSTEM命名空间，因此需要先创建一个，直接登陆Hbase服务器，通过hbase shell执行以下指令：

arduino 复制代码

create_namespace   'SYSTEM'

执行成功后，如下图所示：

这时，再重新运行下代码，这时就没有报错了，然后通过hbase shell的list查看指令，发现已经正常创建带有命名空间的表了SYSTEM:SYSTEM_LOG 。

三、在spark的bin目录里，运行spark-shell出现异常Failed to initialize Spark session.

java.io.FileNotFoundException: File does not exist: hdfs://hadoop1:9000/spark-logs

出现的异常信息如下：

22. d o C a l l ( D i s t r i b u t e d F i l e S y s t e m . j a v a : 1309 ) a t o r g . a p a c h e . h a d o o p . h d f s . D i s t r i b u t e d F i l e S y s t e m 22.doCall(DistributedFileSystem.java:1309) at org.apache.hadoop.hdfs.DistributedFileSystem