【Hive】学习路线:架构、运维、Hsql实战、源码分析

文章目录

  • [一. Hive 基础学习](#一. Hive 基础学习)
    • [1. 基础知识](#1. 基础知识)
    • [2. 安装与配置](#2. 安装与配置)
    • [3. 数据存储与表结构](#3. 数据存储与表结构)
  • [二. hive运维](#二. hive运维)
  • [三. Hive实战](#三. Hive实战)
    • [1. Hive SQL 基础](#1. Hive SQL 基础)
    • [2. 高级查询与数据分析](#2. 高级查询与数据分析)
    • [3. 数据存储优化](#3. 数据存储优化)
    • [4. 性能调优](#4. 性能调优)
  • [四. Hive源码分析](#四. Hive源码分析)

一. Hive 基础学习

1. 基础知识

hive简介

架构说明

【hive-design】hive架构详解:描述了hive架构,hive主要组件的作用、hsql在hive执行过程中的底层细节、hive各组件作用

2. 安装与配置

  • 在本地或服务器上安装 Hive,了解不同的安装方式和配置参数。
  • 配置 Hive 的元数据存储(通常是 MySQL 等关系型数据库)。

【hive】Install hive using mysql as hive metadata service

3. 数据存储与表结构

  • 理解 Hive 数据存储在 HDFS 上的方式,以及不同的存储格式(如 TEXT、ORC、PARQUET 等)的特点。
  • 学习如何创建表、定义列、设置数据类型、添加分区和分桶等。
  • 基本、集合数据类型、文本文件数据编码、读时模式。

【002hive基础】hive的库、表与hdfs的组织逻辑

【003hive基础】hive的数据类型

【004hive基础】hive的文件存储格式与压缩

二. hive运维

hive CUSTOM authentication mode:通过用户名密码连接hiveserver

【hive 运维】hive注释/数据支持中文

【运维】hive 高可用详解: Hive MetaStore HA、hive server HA原理详解;hive高可用实现

【Hive-权限】HiveAccessControlException Permission denied: CREATEFUNCTION

【运维】hive 终端突然不能使用:Hive Schema version does not match metastore's schema version

三. Hive实战

1. Hive SQL 基础

  • 数据定义DDL:创建外部表、内部表、分区表
  • 掌握 Hive 的 SQL 语法,包括数据查询(SELECT)、数据插入(INSERT)、数据更新(UPDATE)、数据删除(DELETE)等操作。
  • 熟悉 Hive 的函数和操作符,如聚合函数、字符串函数、日期函数等。
  • UDF的创建

2. 高级查询与数据分析

  • 学习使用窗口函数进行复杂的数据分析,如排名、累计求和等。
  • 掌握子查询和视图的使用,提高 SQL 的可读性和可维护性。
  • 了解如何进行表连接操作,包括内连接、外连接、左连接、右连接等。

3. 数据存储优化

  • 比较不同存储格式的性能和特点,选择适合特定场景的存储格式。
  • 学习如何对数据进行压缩,提高存储效率和查询性能。
  • 掌握动态分区和静态分区的使用,优化数据存储和查询。

4. 性能调优

  • 了解 Hive 的执行引擎(如 MapReduce、Tez、Spark),选择合适的执行引擎以提高性能。
  • 优化 Hive SQL 语句,避免性能瓶颈,如减少数据量、合理使用索引等。
  • 调整 Hive 的配置参数,如内存设置、并行度设置等,以优化性能。

四. Hive源码分析

Hive metastore整体代码分析及详解

Hive metastore源码分析

Hive架构与源码分析(整理版)

Hive架构之HiveServer2(14)

相关推荐
稻草人22221 天前
java Excel 导出 ,如何实现八倍效率优化,以及代码分层,方法封装
后端·架构
数据智能老司机1 天前
精通 Python 设计模式——创建型设计模式
python·设计模式·架构
数据智能老司机1 天前
精通 Python 设计模式——SOLID 原则
python·设计模式·架构
bobz9651 天前
k8s svc 实现的技术演化:iptables --> ipvs --> cilium
架构
云舟吖1 天前
基于 electron-vite 实现一个 RPA 网页自动化工具
前端·架构
brzhang1 天前
当AI接管80%的执行,你“不可替代”的价值,藏在这20%里
前端·后端·架构
Lei活在当下2 天前
【业务场景架构实战】4. 支付状态分层流转的设计和实现
架构·android jetpack·响应式设计
架构师沉默2 天前
设计多租户 SaaS 系统,如何做到数据隔离 & 资源配额?
java·后端·架构
kfyty7252 天前
不依赖第三方,不销毁重建,loveqq 框架如何原生实现动态线程池?
java·架构
刘立军2 天前
本地大模型编程实战(33)用SSE实现大模型的流式输出
架构·langchain·全栈