hive创建hbase外部关联表实例

在cdh6.3.2已经做好hbase和hive相关配置,这里不阐述。

要创建上述的表结构,你需要先在HBase中创建相应的表,然后在Hive中创建一个EXTERNAL TABLE来映射到这个HBase表。以下是详细的步骤:

步骤1:在HBase中创建表

  1. 确定HBase的安装和配置是否正确。
  2. 确定HBase的shell工具能够正常使用。

打开HBase shell:

复制代码
hbase shell

在HBase shell中,创建一个表analysis_minute和一个列族bls

复制代码
create 'analysis_minute', 'bls'

退出HBase shell:

复制代码
quit

步骤2:在Hive中创建EXTERNAL TABLE

  1. 确保Hive安装和配置正确。
  2. 确保HBaseStorageHandler已经包含在Hive的配置中。

使用Hive的命令行界面或者你的IDE来执行下面的SQL语句:

复制代码
CREATE EXTERNAL TABLE analysis_minute_hbase (
  key STRING,
  pid STRING,
  time STRING,
  val STRING
)
STORED BY 'org.apache.hadoop.hive.hbase.HBaseStorageHandler'
WITH SERDEPROPERTIES (
  'hbase.columns.mapping' = ':key,bls:pid,bls:time,bls:val',
  'serialization.format' = '1'
)
TBLPROPERTIES (
  'hbase.table.name' = 'analysis_minute',
  'last_modified_by' = 'hdfs',
  'last_modified_time' = '1713990161',
  'numFiles' = '0',
  'numFilesErasureCoded' = '0',
  'numRows' = '0',
  'rawDataSize' = '0',
  'storage_handler' = 'org.apache.hadoop.hive.hbase.HBaseStorageHandler',
  'totalSize' = '0'
);

这段SQL语句做了以下几件事情:

  • 创建了一个EXTERNAL TABLE,意味着数据存储在HBase中,而不是Hive的数据仓库目录中。
  • 使用了HBaseStorageHandler来允许Hive与HBase交互。
  • 定义了四个字段,分别对应于HBase表中的列。
  • 通过WITH SERDEPROPERTIES定义了Hive字段到HBase列族的映射。
  • 通过TBLPROPERTIES定义了HBase表的名称和其他属性。

注意事项:

  • 确保HBase表analysis_minute和列族bls已经存在,Hive才能正确创建EXTERNAL TABLE。
  • 确认Hive配置文件中已经包含了HBaseStorageHandler的jar包。
  • 如果HBase表或列族名称与Hive表结构中的名称不匹配,Hive将无法找到对应的HBase表。
  • 在执行上述Hive SQL语句之前,你可能需要根据你的Hadoop和Hive版本调整配置参数。
相关推荐
B站计算机毕业设计超人8 小时前
计算机毕业设计Python+百度千问大模型微博舆情分析预测 微博情感分析可视化 大数据毕业设计(源码+LW文档+PPT+讲解)
大数据·hive·hadoop·python·毕业设计·知识图谱·课程设计
王九思15 小时前
大数据查询工具Hive介绍
大数据·hive·hadoop
王九思16 小时前
Hive Hook 机制
数据仓库·hive·hadoop
lipWOFb1 天前
扩展卡尔曼滤波soc估算 基于EKF算法的锂电池SOC 卡尔曼滤波估计电池soc ,simul...
hive
走遍西兰花.jpg1 天前
hive如何使用python脚本
数据仓库·hive·hadoop·python
德彪稳坐倒骑驴1 天前
Hive电商分析项目 Azkaban自动化运行
hive·hadoop·自动化
yumgpkpm2 天前
Cloudera CDP/CMP华为鲲鹏版下 Spark应用加速,华为昇腾芯片的实用配置过程
hive·hadoop·elasticsearch·flink·kafka·hbase·cloudera
m0_748252382 天前
ervlet 编写过滤器
数据仓库·hive·hadoop
talle20213 天前
Hadoop分布式资源管理框架【Yarn】
大数据·hadoop·分布式
yumgpkpm3 天前
基于GPU的Spark应用加速 Cloudera CDP/华为CMP鲲鹏版+Nvidia英伟达联合解决方案
大数据·数据库·人工智能·hadoop·elasticsearch·spark·cloudera