Hive默认分割符、存储格式与数据压缩

目录

1、Hive默认分割符

Hive创建表时指定的行受限(ROW FORMAT)配置标准HQL为:

sql 复制代码
...
ROW FORMAT DELIMITED
FIELDS TERMINATED BY '\u0001'
COLLECTION ITEMS TERMINATED BY ','
MAP KEYS TERMINATED BY ':'
LINES TERMINATED BY '\n'
STORED AS TEXTFILE
TBLPROPERTIES ('key'='value')
LOCATION '/user/hive/warehouse/...'

Hive默认分割符规则如下:

分隔符 受限项 HQL语法
^A(\001) 字段(列)分隔符 FIELDS TERMINATED BY
^B(\002) 集合(array、struct、map)元素(map为键值对)间的分隔符 COLLECTION ITEMS TERMINATED BY
^C(\003) map元素键与值间的分隔符 MAP KEYS TERMINATED BY
\n 行分隔符 LINES TERMINATED BY

2、Hive存储格式

Hive支持的存储数据的格式主要有:TEXTFILE(行式存储) 、SEQUENCEFILE(行式存储)、ORC(列式存储)、PARQUET(列式存储)。企业中使用ORC较多

更多关于存储格式的介绍见:https://www.cnblogs.com/jimmy888/p/13551605.html

3、Hive数据压缩

Hive的数据压缩格式通过TBLPROPERTIES关键字指定

SNAPPY压缩在企业中使用较多

1) ORC存储格式的SNAPPY压缩:

sql 复制代码
STORED AS ORC
TBLPROPERTIES ("orc.compress"="SNAPPY")

2) PARQUET存储格式的SNAPPY压缩:

sql 复制代码
STORED AS PARQUET
TBLPROPERTIES ("parquet.compression"="SNAPPY")

更多关于数据压缩的介绍见:https://www.cnblogs.com/jimmy888/p/13551605.html

相关推荐
AAA建材批发王师傅6 小时前
Hive 序列化与反序列化:数据的 “打包“ 与 “拆箱“ 艺术
数据仓库·hive·hadoop
Edingbrugh.南空10 小时前
Hive SQL执行流程深度解析:从CLI入口到执行计划生成
hive·hadoop·sql
Faith_xzc11 小时前
Apache Doris FE 问题排查与故障分析全景指南
大数据·数据仓库·apache·doris
Edingbrugh.南空12 小时前
Hive 性能优化:从表设计到查询执行的全链路优化
hive·hadoop
潘小磊12 小时前
高频面试之6Hive
大数据·hive·面试·职场和发展
Edingbrugh.南空12 小时前
Hive SQL 执行计划详解:从查看方法到优化应用
hive·hadoop·sql
Edingbrugh.南空16 小时前
Hive SQL:一小时快速入门指南
hive·hadoop·sql
zh_199951 天前
Spark面试精讲(上)
java·大数据·数据仓库·python·spark·数据库开发·数据库架构
houzhizhen1 天前
Metastore 架构示意图和常用 SQL
hive
※尘1 天前
Hive 存储格式深度解析:从 TextFile 到 ORC,如何选对数据存储方案?
数据仓库·hive·hadoop