大数据之hive(分布式SQL计算工具)加安装部署

1.分布式SQL计算:

对数据进行统计分析, SQL是目前最为方便的编程工具.

2.hive:主要功能:

将 SQL语句翻译成MapReduce程序运行,提供用户分布式SQL计算能力

3.构建分布式SQL计算:(hive核心组件)

需要有: 一:元数据管理功能, 即:数据位置,数据结构,等对数据进行描述,进行记录

二:SQL到MapReduce转换功能:SQL解析器:功能: SQL分析,SQL到MapReduce程序的转换,提交MapReduce程序运行并收集执行结果.

4.组件

一:组件1: metastore(元数据存储)

Hive提供了Metastore服务进程提供元数据管理功能

二:组件2:Driver驱动程序(SQL解析器)

包括语法解析器、计划编译器、优化器,执行器

三:用户接口:

包括CLI 、JDBC/ODBC 、WebGUI 。其中,CLI(command line interface) 为shell命令 行 ;Hive中的Thrift服务器允许外部客户端通过网络与Hive进行交 互 ,类似于JDBC或ODBC协议。.WebGUI是通过浏览器访问Hive。

5.安装部署:

一:安装MySQL,可以看我的文章MySQL8.0安装部署

二: 启动MySQL服务:systemctl start mysqld

三:配置hadoop:

(1):配置core-site.xml文件:添加:

<property>

<name>hadoop.proxyuser.hadoop.hosts</name>

<value>*</value>

</property>

<property>

<name>hadoop.proxyuser.hadoop.groups</name>

<value>*</value>

</property>

四:下载解压hive

hive安装包https://mirrors.aliyun.com/apache/hive/hive-4.0.1/?spm=a2c6h.25603864.0.0.16e229b19I1Iy0

下载这个

解压:命令: tar -zxvf /export/server/apache-hive-4.0.1-bin.tar.gz -C /export/server/

设置软连接:ln -s /export/server/apache-hive-4.0.1-bin /export/server/hive

五:提供MySQL driver包

将驱动包放入hive里的lib文件夹里

下载驱动包https://repo1.maven.org/maven2/mysql/mysql-connector-java/8.0.30/

6.配置hive

一:在hive的conf文件夹新建hive-env.sh文件

命令: mv hive-env.sh.template hive-env.sh

加入:

export HADOOP_HOME=/export/server/hadoop

export HIVE_CONF_DIR=/export/server/hive/conf

export HIVE_AUX_JARS_PATH=/export/server/hive/lib

二: 在 Hive的conf目录内 ,新建hive-site.xml文件,填入以下内容:

<configuration>

<property>

<name>javax.jdo.option.ConnectionURL</name>

<value>jdbc:mysql://wtk:3306/hive?createDatabaseIfNotExist=true&amp;useSSL=false&amp;useUnicode=true&amp;allowPublicKeyRetrieval=TRUE&amp;serverTimezone=UTC&amp;characterEncoding=UTF-8</value>

</property>

<property>

<name>javax.jdo.option.ConnectionDriverName</name>

<value>com.mysql.cj.jdbc.Driver</value>

</property>

<property>

<name>javax.jdo.option.ConnectionUserName</name>

<value>root</value>

</property>

<property>

<name>javax.jdo.option.ConnectionPassword</name>

<value>123456</value>

</property>

<property>

<name>hive.server2.thrift.bind.host</name>

<value>wtk</value>

</property>

<property>

<name>hive.metastore.uris</name>

<value>thrift://wtk:9083</value>

</property>

<property>

<name>hive.metastore.event.db.notification.api.auth</name>

<value>false</value>

</property>

</configuration>

7.初始化元数据库

在 MySQL中新建数据库:hive

命令: CREATE DATABASE hive CHARSET UTF8;

执行元数据库初始化命令:一:cd /export/server/hive 二:bin/schematool -initSchema -dbType mysql -verbos

(删除MySQL里的hive数据库)

8.启动hive

先创建文件夹

命令: mkdir /export/server/hive/logs

后台启动: nohup bin/hive --service metastore >> logs/metastore.log 2>&1 &

有可能连接失败:

去 vi /export/server/hive/bin/hive ,把这玩意注释掉,md,解决了好久

这样就好了

相关推荐
穆利堂-movno119 小时前
住宅、写字楼、高校、医院物业后勤数字化升级:“收费+巡检+工单”全链路落地思路
大数据
makise-19 小时前
破译大数据底层密码:从 HDFS 存储基石到现代分布式计算引擎的架构演进
大数据·hdfs·架构
TDengine (老段)19 小时前
TDengine 连接算子 — Inner/Outer/ASOF/Window Join 的实现与使用
大数据·数据库·物联网·哈希算法·时序数据库·tdengine·涛思数据
春日见19 小时前
vscode的AI编程插件推荐:
大数据·ide·vscode·算法·机器学习·编辑器·ai编程
2601_9594819219 小时前
CPT Markets:把信息披露习惯做到位——路径梳理与提示整理
大数据
小懿互联集成平台20 小时前
金蝶云星空与赛狐跨境电商ERP系统数据互通对接
大数据·金蝶云星空·数据对接·小懿互联·赛狐erp
于先生吖20 小时前
覆盖多行业的AI解决方案:AI知识库智能体落地全解析
大数据·人工智能
ACP广源盛1392462567320 小时前
GSV5600@ACP#多接口协议转换芯片,物理 AI 便携终端的互联核心
大数据·人工智能·分布式·嵌入式硬件·spark
147API20 小时前
Fable 5访问暂停后,模型接入层不能再只写死一个模型名
大数据·人工智能·api·claude
KaMeidebaby21 小时前
卡梅德生物技术快报 | 噬菌体展示 12 肽文库在蛋白表位定位中的应用与实验数据
大数据·人工智能·架构·spark·新浪微博