Hive默认分割符、存储格式与数据压缩

目录

1、Hive默认分割符

Hive创建表时指定的行受限(ROW FORMAT)配置标准HQL为:

sql 复制代码
...
ROW FORMAT DELIMITED
FIELDS TERMINATED BY '\u0001'
COLLECTION ITEMS TERMINATED BY ','
MAP KEYS TERMINATED BY ':'
LINES TERMINATED BY '\n'
STORED AS TEXTFILE
TBLPROPERTIES ('key'='value')
LOCATION '/user/hive/warehouse/...'

Hive默认分割符规则如下:

分隔符 受限项 HQL语法
^A(\001) 字段(列)分隔符 FIELDS TERMINATED BY
^B(\002) 集合(array、struct、map)元素(map为键值对)间的分隔符 COLLECTION ITEMS TERMINATED BY
^C(\003) map元素键与值间的分隔符 MAP KEYS TERMINATED BY
\n 行分隔符 LINES TERMINATED BY

2、Hive存储格式

Hive支持的存储数据的格式主要有:TEXTFILE(行式存储) 、SEQUENCEFILE(行式存储)、ORC(列式存储)、PARQUET(列式存储)。企业中使用ORC较多

更多关于存储格式的介绍见:https://www.cnblogs.com/jimmy888/p/13551605.html

3、Hive数据压缩

Hive的数据压缩格式通过TBLPROPERTIES关键字指定

SNAPPY压缩在企业中使用较多

1) ORC存储格式的SNAPPY压缩:

sql 复制代码
STORED AS ORC
TBLPROPERTIES ("orc.compress"="SNAPPY")

2) PARQUET存储格式的SNAPPY压缩:

sql 复制代码
STORED AS PARQUET
TBLPROPERTIES ("parquet.compression"="SNAPPY")

更多关于数据压缩的介绍见:https://www.cnblogs.com/jimmy888/p/13551605.html

相关推荐
橘子编程11 小时前
Hive大数据实战指南:从入门到精通
大数据·hive·hadoop
橘子编程16 小时前
Apache Hadoop知识全解析
大数据·hive·hadoop·apache
dovens16 小时前
Spring Boot 从 2.7.x 升级到 3.3注意事项
数据库·hive·spring boot
QEasyCloud20222 天前
企业数据仓库建设的技术架构与实施方法论
数据仓库·架构
淡定一生23332 天前
数据仓库建模方法
大数据·数据库·数据仓库
RestCloud2 天前
如何用ETL实现多租户数据库的数据隔离与整合
数据库·数据仓库·etl·etlcloud·数据同步·数据集成平台·数据库传输
千桐科技2 天前
数据仓库 vs 数据中台:从“数据库的豪华升级版”到“企业的数据操作系统”
数据库·数据仓库·数据治理·数据中台·数据资产·数据服务·qdata
Joy T3 天前
【大数据】离线数仓核心组件:Hive 架构解析与进阶操作指南
大数据·数据仓库·hive·hadoop·架构
jasnet_u3 天前
在Hadoop3.3.6上搭建Hive3.1.2
hive·hadoop
麦聪聊数据3 天前
企业数据流通与敏捷API交付实战(一):ETL、CDC与API调用对比
数据库·数据仓库·低代码·restful·etl