文章目录
- [一. Hive 基础学习](#一. Hive 基础学习)
-
- [1. 基础知识](#1. 基础知识)
- [2. 安装与配置](#2. 安装与配置)
- [3. 数据存储与表结构](#3. 数据存储与表结构)
- [二. hive运维](#二. hive运维)
- [三. Hive实战](#三. Hive实战)
-
- [1. Hive SQL 基础](#1. Hive SQL 基础)
- [2. 高级查询与数据分析](#2. 高级查询与数据分析)
- [3. 数据存储优化](#3. 数据存储优化)
- [4. 性能调优](#4. 性能调优)
- [四. Hive源码分析](#四. Hive源码分析)
一. Hive 基础学习
1. 基础知识
架构说明
【hive-design】hive架构详解:描述了hive架构,hive主要组件的作用、hsql在hive执行过程中的底层细节、hive各组件作用
2. 安装与配置
- 在本地或服务器上安装 Hive,了解不同的安装方式和配置参数。
- 配置 Hive 的元数据存储(通常是 MySQL 等关系型数据库)。
【hive】Install hive using mysql as hive metadata service
3. 数据存储与表结构
- 理解 Hive 数据存储在 HDFS 上的方式,以及不同的存储格式(如 TEXT、ORC、PARQUET 等)的特点。
- 学习如何创建表、定义列、设置数据类型、添加分区和分桶等。
- 基本、集合数据类型、文本文件数据编码、读时模式。
二. hive运维
hive CUSTOM authentication mode:通过用户名密码连接hiveserver
【运维】hive 高可用详解: Hive MetaStore HA、hive server HA原理详解;hive高可用实现
【Hive-权限】HiveAccessControlException Permission denied: CREATEFUNCTION
【运维】hive 终端突然不能使用:Hive Schema version does not match metastore's schema version
三. Hive实战
1. Hive SQL 基础
- 数据定义DDL:创建外部表、内部表、分区表
- 掌握 Hive 的 SQL 语法,包括数据查询(SELECT)、数据插入(INSERT)、数据更新(UPDATE)、数据删除(DELETE)等操作。
- 熟悉 Hive 的函数和操作符,如聚合函数、字符串函数、日期函数等。
- UDF的创建
2. 高级查询与数据分析
- 学习使用窗口函数进行复杂的数据分析,如排名、累计求和等。
- 掌握子查询和视图的使用,提高 SQL 的可读性和可维护性。
- 了解如何进行表连接操作,包括内连接、外连接、左连接、右连接等。
3. 数据存储优化
- 比较不同存储格式的性能和特点,选择适合特定场景的存储格式。
- 学习如何对数据进行压缩,提高存储效率和查询性能。
- 掌握动态分区和静态分区的使用,优化数据存储和查询。
4. 性能调优
- 了解 Hive 的执行引擎(如 MapReduce、Tez、Spark),选择合适的执行引擎以提高性能。
- 优化 Hive SQL 语句,避免性能瓶颈,如减少数据量、合理使用索引等。
- 调整 Hive 的配置参数,如内存设置、并行度设置等,以优化性能。