大数据学习(4)-hive表操作

&&大数据学习&&

🔥系列专栏: 👑哲学语录: 承认自己的无知,乃是开启智慧的大门

💖如果觉得博主的文章还不错的话,请点赞👍+收藏⭐️+留言📝支持一下博>主哦🤞


1、普通创建表

html 复制代码
CREATE [TEMPORARY] [EXTERNAL] TABLE [IF NOT EXISTS] [db_name.]table_name   
[(col_name data_type [COMMENT col_comment], ...)]
[COMMENT table_comment]
[PARTITIONED BY (col_name data_type [COMMENT col_comment], ...)]
[CLUSTERED BY (col_name, col_name, ...) 
[SORTED BY (col_name [ASC|DESC], ...)] INTO num_buckets BUCKETS]
[ROW FORMAT row_format] 
[STORED AS file_format]
[LOCATION hdfs_path]
[TBLPROPERTIES (property_name=property_value, ...)]

关键字说明:

1TEMPORARY

临时表,该表只在当前会话可见,会话结束,表会被删除。

2EXTERNAL (重点)

外部表,与之相对应的是内部表(管理表)。管理表意味着Hive会完全接管该表,包括元数据和HDFS中的数据。而外部表则意味着Hive只接管元数据,而不完全接管HDFS中的数据。

3data_type (重点)

Hive中的字段类型可分为基本数据类型和复杂数据类型。

基本数据类型如下:

|----------------------------|----------------------------------|---------------|
| Hive | 说明 | 定义 |
| t inyint | 1byte有符号整数 | |
| s mallint | 2byte有符号整数 | |
| i nt | 4byte有符号整数 | |
| b igint | 8byte有符号整数 | |
| b oolean | 布尔类型,true或者false | |
| f loat | 单精度浮点数 | |
| d ouble | 双精度浮点数 | |
| decimal | 十进制精准数字类型 | decimal(16,2) |
| varchar | 字符序列,需指定最大长度,最大长度的范围是[1,65535] | varchar(32) |
| string | 字符串,无需指定最大长度 | |
| t imestamp | 时间类型 | |
| b inary | 二进制数据 | |

复杂数据类型如下;

|--------|------------------------------|-------------------------------|--------------|
| 类型 | 说明 | 定义 | 取值 |
| array | 数组是一组相同类型的值的集合 | array<string> | arr[0] |
| map | map是一组相同类型的键-值对集合 | map<string, int> | map['key'] |
| struct | 结构体由多个属性组成,每个属性都有自己的属性名和数据类型 | struct<id:int, name:string> | struct.id |

注:类型转换

Hive的基本数据类型可以做类型转换,转换的方式包括隐式转换以及显示转换。

方式一: 隐式 转换

具体规则如下:

a. 任何整数类型都可以隐式地转换为一个范围更广的类型,如tinyint可以转换成int,int可以转换成bigint。

b. 所有整数类型、float和string类型都可以隐式地转换成double。

c. tinyint、smallint、int都可以转换为float。

d. boolean类型不可以转换为任何其它的类型。

详情可参考Hive官方说明:[++++Allowed Implicit Conversions++++](#Allowed Implicit Conversions)

方式二:显示转换

可以借助cast函数完成显示的类型转换

4、PARTITIONED BY (重点)

创建分区表

5、CLUSTERED BY ... SORTED BY. ..INTO ... BUCKETS (重点)

创建分桶表

6、R OW FORMAT (重点)

指定SERDE,SERDE是Serializer and Deserializer的简写。Hive使用SERDE序列化和反序列化每行数据。详情可参考 ++++Hive-++++ ++++Serde++++。语法说明如下:

****语法一:****DELIMITED关键字表示对文件中的每个字段按照特定分割符进行分割,其会使用默认的SERDE对每行数据进行序列化和反序列化。

html 复制代码
ROW FORAMT DELIMITED 

[FIELDS TERMINATED BY char]

[COLLECTION ITEMS TERMINATED BY char]

[MAP KEYS TERMINATED BY char]

[LINES TERMINATED BY char]

[NULL DEFINED AS char]

注:

  • fields terminated by :列分隔符
  • collection items terminated by: map、struct和array中每个元素之间的分隔符
  • map keys terminated by:map中的key与value的分隔符
  • lines terminated by:行分隔符

语法二 ****:****SERDE关键字可用于指定其他内置的SERDE或者用户自定义的SERDE。例如JSON SERDE,可用于处理JSON字符串。

ROW FORMAT SERDE serde_name [WITH SERDEPROPERTIES(property_name=property_value,property_name=property_value, ...)]

7STORED AS(重点)

指定文件格式,常用的文件格式有,textfile(默认值),sequence file,orc file、parquet file等等。

8LOCATION

指定表所对应的HDFS路径,若不指定路径,其默认值为

${hive.metastore.warehouse.dir}/db_name.db/table_name

9TBLPROPERTIES

用于配置表的一些KV键值对参数。

2、Create Table As Select(CTAS)建表

该语法允许用户利用select查询语句返回的结果,直接建表,表的结构和查询语句的结构保持一致,且保证包含select查询语句放回的内容。

html 复制代码
CREATE [TEMPORARY] TABLE [IF NOT EXISTS] table_name

[COMMENT table_comment] 

[ROW FORMAT row_format] 

[STORED AS file_format] 

[LOCATION hdfs_path]

[TBLPROPERTIES (property_name=property_value, ...)]

[AS select_statement]

3)Create Table Like语法

该语法允许用户复刻一张已经存在的表结构,与上述的CTAS语法不同,该语法创建出来的表中不包含数据。

html 复制代码
CREATE [TEMPORARY] [EXTERNAL] TABLE [IF NOT EXISTS] [db_name.]table_name

[LIKE exist_table_name]

[ROW FORMAT row_format] 

[STORED AS file_format] 

[LOCATION hdfs_path]

[TBLPROPERTIES (property_name=property_value, ...)]
相关推荐
机智的叉烧41 分钟前
前沿重器[57] | sigir24:大模型推荐系统的文本ID对齐学习
人工智能·学习·机器学习
量子-Alex2 小时前
【多模态聚类】用于无标记视频自监督学习的多模态聚类网络
学习·音视频·聚类
吉大一菜鸡2 小时前
FPGA学习(基于小梅哥Xilinx FPGA)学习笔记
笔记·学习·fpga开发
爱吃西瓜的小菜鸡4 小时前
【C语言】判断回文
c语言·学习·算法
小A1595 小时前
STM32完全学习——SPI接口的FLASH(DMA模式)
stm32·嵌入式硬件·学习
岁岁岁平安5 小时前
spring学习(spring-DI(字符串或对象引用注入、集合注入)(XML配置))
java·学习·spring·依赖注入·集合注入·基本数据类型注入·引用数据类型注入
武昌库里写JAVA5 小时前
Java成长之路(一)--SpringBoot基础学习--SpringBoot代码测试
java·开发语言·spring boot·学习·课程设计
qq_589568105 小时前
数据可视化echarts学习笔记
学习·信息可视化·echarts
兔C6 小时前
微信小程序的轮播图学习报告
学习·微信小程序·小程序
海海不掉头发6 小时前
苍穹外卖-day05redis 缓存的学习
学习·缓存