本地部署Hive集群

规划

|-----------------------|----------|
| 服务 | 机器 |
| Hive本体 | 部署在Node1 |
| 元数据服务所需的关系型数据库(MYSQL) | 部署在Node1 |

安装MYSQL数据库

bash 复制代码
# 更新密钥
rpm --import https://repo.mysql.com/RPM-GPG-KEY-mysql-2022

# 安装Mysql yum库
rpm -Uvh http://repo.mysql.com//mysql57-community-release-el7-7.noarch.rpm

# yum安装MysqL
yum -y install mysql-community-server

# 启动MySQL并跳过授权表,使用--user=mysql选项来指定MySQL以mysql用户身份运行
mysqld --skip-grant-tables --skip-networking --user=mysql &

#  使用mysql登录并重置密码
mysql -uroot
USE mysql;
set global validate_password_policy=LOW;
set global validate_password_length=4;
ALTER USER 'root'@'localhost' IDENTIFIED BY '123456';
grant all privileges on *.* to root@"%" identified by 'root' with grant option;
FLUSH PRIVILEGES;

# 重启mysql并重新登录
systemctl stop mysqld
systemctl start mysqld
systemctl enable mysqld

mysql -uroot -p

配置Hadoop

Hive的运行依赖于Hadoop(HDFS、Mapreduce、YARN都依赖)

同时涉及到hDFS文件系统的访问,所以需要配置Hadoop的代理用户

即设置hadoop用户允许代理(模拟)其他用户

配置如下内容在Hadoop的core-site.xml中,并分发到其他节点,且重启HDFS集群

bash 复制代码
  <property>
    <name>hadoop.proxyuser.hadoop.hosts</name>
    <value>*</value>
  </property>
  <property>
    <name>hadoop.proxyuser.hadoop.groups</name>
    <value>*</value>
  </property>

下载解压Hive

hive和mysql驱动安装包位置:

apache-hive-3.1.3-bin.tar.gzhttps://archive.apache.org/dist/hive/hive-3.1.3/apache-hive-3.1.3-bin.tar.gzmysql-connector-java-5.1.34.jarhttps://repo1.maven.org/maven2/mysql/mysql-connector-java/5.1.34/mysql-connector-java-5.1.34.jar

bash 复制代码
tar -zxf apache-hive-3.1.3-bin.tar.gz -C /export/server/

mv mysql-connector-java-5.1.34.jar  /export/server/apache-hive-3.1.3-bin/lib/

ln -s /export/server/apache-hive-3.1.3-bin hive

配置Hive

在Hive的conf目录内,新建hive-env.sh文件,填入以下环境变量内容:

复制代码
export HADOOP_HOME=/export/server/hadoop
export HIVE_CONF_DIR=/export/server/hive/conf
export HIVE_AUX_JARS_PATH=/export/server/hive/lib

在Hive的conf目录内,新建hive-site.xml文件,填入以下内容:

bash 复制代码
vim hive-site.xml

<configuration>
<!-- 存储元数据mysql相关配置 -->
<property>
	<name>javax.jdo.option.ConnectionURL</name>
	<value>jdbc:mysql://node1:3306/hive?createDatabaseIfNotExist=true&amp;useSSL=false&amp;useUnicode=true&amp;characterEncoding=UTF-8</value>
</property>

<property>
	<name>javax.jdo.option.ConnectionDriverName</name>
	<value>com.mysql.jdbc.Driver</value>
</property>

<property>
	<name>javax.jdo.option.ConnectionUserName</name>
	<value>root</value>
</property>

<property>
	<name>javax.jdo.option.ConnectionPassword</name>
	<value>hadoop</value>
</property>

<!-- H2S运行绑定host -->
<property>
    <name>hive.server2.thrift.bind.host</name>
    <value>node1</value>
</property>

<!-- 远程模式部署metastore metastore地址 --> # 远程模式,metastore必须单独配置
<property>
    <name>hive.metastore.uris</name>
    <value>thrift://node1:9083</value>
</property>

<!-- 关闭元数据存储授权  --> 
<property>
    <name>hive.metastore.event.db.notification.api.auth</name>
    <value>false</value>
</property>
</configuration>

初始化元数据库

bash 复制代码
mysql -uroot -p123456
create database hive charset utf8;
exit;

cd /export/server/hive/bin
./schematool -initSchema -dbType mysql -verbos

启动Hive(使用Hadoop用户)

bash 复制代码
chown -R hadoop:hadoop apache-hive-3.1.3-bin hive
cd /export/server/hive/
mkdir logs
nohup bin/hive --service metastore  >> logs/metastore.log 2>&1 &
cd ../bin
./hive
相关推荐
xerthwis8 小时前
Hadoop:大数据世界的“古老基石”与“沉默的共生者”
大数据·人工智能·hadoop
yumgpkpm11 小时前
Cloudera CDH5|CDH6|CDP7.1.7|CDP7.3|CMP 7.3的产品优势分析(在华为鲲鹏 ARM 麒麟KylinOS、统信UOS)
大数据·人工智能·hadoop·深度学习·spark·transformer·cloudera
ghgxm52011 小时前
EXCEL使用VBA代码实现按条件查询数据库--简单实用
开发语言·数据仓库·笔记·excel·数据库开发
yumgpkpm11 小时前
Hadoop如何用Flink支持实时数据分析需求
大数据·hadoop·分布式·hdfs·flink·kafka·cloudera
喻师傅1 天前
Hive 中 NULL 值在逻辑判断中的“陷阱”(踩坑复盘)
数据仓库·hive·hadoop
涤生大数据1 天前
放弃Canal后,我们用Flink CDC实现了99.99%的数据一致性
大数据·数据仓库·flink·大数据开发·flink cdc·数据开发·实时数据
jinxinyuuuus2 天前
订阅指挥中心:数据可移植性、Schema设计与用户数据主权
数据仓库·人工智能
老徐电商数据笔记2 天前
技术复盘第四篇:Kimball维度建模在电商场景的实战应用
大数据·数据仓库·技术面试
LF3_2 天前
Centos7,单机搭建Hadoop3.3.6伪分布式集群
大数据·hadoop·伪分布式
程序员小羊!3 天前
数仓数据基线,在不借助平台下要怎么做?
大数据·数据仓库