Hive 知识点八股文记录 ——（一）特性

CLI（command line interface）、JDBC/ODBC、Thrift Server、WEB GUI、metastore和Driver(Complier、Optimizer和Executor)

服务端

Driver：包括了Complier、Optimizer和Executor。将Hive sql解析，编译，优化，生成执行计划
Metastore ：存储hive元数据（描述数据的数据，比如一行数据里面，单个数据的名字叫啥，类型是啥，注释是啥，以及表本身的框架）解耦hive服务和metastore服务
Thrift：可扩展且跨语言的服务的开发，hive集成服务支持不同编程语言调用hive的接口、

客户端

特点

Hive加载数据的时候不对数据检查 （关系型是检查的，若加载数据不符合模式会拒绝执行，称之为写时模式 ），也不更改加载的数据文件，查询的时候检查数据格式 （读时模式）
- 写时模式加载过程中索引，数据会压缩，加载数据较慢。数据加载好后查询较快
- 读时模式适用于数据非结构化，存储模式未知的情况
hive不支持对特定行的操作，只支持覆盖原数据和追加数据
hive不支持事务，索引
hive的更新操作为：原表数据转化后存在新表
hive支持和hbase集成，实现快速查询，但需要提供sql语法解析外壳
hive可认为是MR的包装

兼容hive

组件

sql运行架构

两者基本相同，但sql解析器不一样（spark做了较多优化）

	Hive	spark
场景	离线，非实时	实时要求高，速度快的场景
速度	慢	快，比传统MR块10-100倍

内部表，外部表

默认创建内部表，创建外部表，需要加上external关键字修饰，还可通过location指定Hive仓库的路径

区别

	内部表	外部表
drop	删除元数据和文件	只删除元数据
load	数据移动到指定路径	不移动到数据仓库目录下

优先使用外部表

数据处理都用hql完成的话，选择内部表