Hive默认分割符、存储格式与数据压缩

目录

1、Hive默认分割符

Hive创建表时指定的行受限(ROW FORMAT)配置标准HQL为:

sql 复制代码
...
ROW FORMAT DELIMITED
FIELDS TERMINATED BY '\u0001'
COLLECTION ITEMS TERMINATED BY ','
MAP KEYS TERMINATED BY ':'
LINES TERMINATED BY '\n'
STORED AS TEXTFILE
TBLPROPERTIES ('key'='value')
LOCATION '/user/hive/warehouse/...'

Hive默认分割符规则如下:

分隔符 受限项 HQL语法
^A(\001) 字段(列)分隔符 FIELDS TERMINATED BY
^B(\002) 集合(array、struct、map)元素(map为键值对)间的分隔符 COLLECTION ITEMS TERMINATED BY
^C(\003) map元素键与值间的分隔符 MAP KEYS TERMINATED BY
\n 行分隔符 LINES TERMINATED BY

2、Hive存储格式

Hive支持的存储数据的格式主要有:TEXTFILE(行式存储) 、SEQUENCEFILE(行式存储)、ORC(列式存储)、PARQUET(列式存储)。企业中使用ORC较多

更多关于存储格式的介绍见:https://www.cnblogs.com/jimmy888/p/13551605.html

3、Hive数据压缩

Hive的数据压缩格式通过TBLPROPERTIES关键字指定

SNAPPY压缩在企业中使用较多

1) ORC存储格式的SNAPPY压缩:

sql 复制代码
STORED AS ORC
TBLPROPERTIES ("orc.compress"="SNAPPY")

2) PARQUET存储格式的SNAPPY压缩:

sql 复制代码
STORED AS PARQUET
TBLPROPERTIES ("parquet.compression"="SNAPPY")

更多关于数据压缩的介绍见:https://www.cnblogs.com/jimmy888/p/13551605.html

相关推荐
君不见,青丝成雪4 小时前
Flink双流join
大数据·数据仓库·flink
君不见,青丝成雪18 小时前
Hadoop技术栈(四)HIVE常用函数汇总
大数据·数据库·数据仓库·hive·sql
yatingliu20191 天前
HiveQL | 个人学习笔记
hive·笔记·sql·学习
SelectDB技术团队1 天前
Apache Doris 在菜鸟的大规模湖仓业务场景落地实践
数据库·数据仓库·数据分析·apache doris·菜鸟技术
程序员小羊!1 天前
数据仓库&OLTP&OLAP&维度讲解
数据仓库
RestCloud2 天前
ETLCloud中的数据转化规则是什么意思?怎么执行
数据库·数据仓库·etl
老刘聊集成2 天前
数据一致性校验:ETL保证信息准确无误的关键步骤
数据仓库·etl
苛子3 天前
iPaaS、ETL、数据集成平台是什么?三者是什么关系?
数据仓库·etl
步行cgn3 天前
在 HTML 表单中,name 和 value 属性在 GET 和 POST 请求中的对应关系如下:
前端·hive·html
喂完待续4 天前
【Tech Arch】Hive技术解析:大数据仓库的SQL桥梁
大数据·数据仓库·hive·hadoop·sql·apache