Hadoop压缩技术与Hive文件格式详解

目录

文件格式和压缩

Hadoop压缩概述

压缩格式

Hive文件格式

[Text File](#Text File)

ORC

1)文件格式

2)结构

3)建表语句

Parquet

1)文件格式

2)结构

3)建表语句

压缩

Hive表数据进行压缩

1)TextFile

2)ORC

3)Parquet

计算过程中使用压缩

1)单个MR的中间结果进行压缩

2)单条SQL语句的中间结果进行压缩


文件格式和压缩

Hadoop压缩概述

压缩格式

压缩格式 算法 文件扩展名 是否可切分
DEFLATE DEFLATE .deflate
Gzip DEFLATE .gz
bzip2 bzip2 .bz2
LZO LZO .lzo
Snappy Snappy .snappy

为了支持多种压缩/解压缩算法,Hadoop引入了编码/解码器:

压缩格式 对应的编码/解码器
DEFLATE org.apache.hadoop.io.compress.DefaultCodec
gzip org.apache.hadoop.io.compress.GzipCodec
bzip2 org.apache.hadoop.io.compress.BZip2Codec
LZO com.hadoop.compression.lzo.LzopCodec
Snappy org.apache.hadoop.io.compress.SnappyCodec

压缩性能比较:

压缩算法 原始文件大小 压缩文件大小 压缩速度 解压速度
gzip 8.3GB 1.8GB 17.5MB/s 58MB/s
bzip2 8.3GB 1.1GB 2.4MB/s 9.5MB/s
LZO 8.3GB 2.9GB 49.3MB/s 74.6MB/s

Snappy压缩性能:

  • 在Core i7处理器单核64位模式下,Snappy压缩速度约为250 MB/s,解压缩速度约为500 MB/s或更高。

参考链接: [snappy | A fast compressor/decompressorA fast compressor/decompressorhttp://google.github.io/snappy/]

Hive文件格式

为Hive表中的数据选择一个合适的文件格式,对提高查询性能至关重要。Hive表数据的存储格式包括text file、orc、parquet、sequence file等。

Text File

文本文件是Hive默认使用的文件格式。

创建文本文件格式的表语句如下:

sql 复制代码
CREATE TABLE textfile_table
(
  column_specs
)
STORED AS TEXTFILE;

ORC

1)文件格式

ORC(Optimized Row Columnar)是一种列式存储的文件格式,能够提高Hive读写数据和处理数据的性能。

与列式存储相对的是行式存储,下图是两者的对比:

如图所示左边为逻辑表,右边第一个为行式存储,第二个为列式存储。

2)结构

每个Orc文件由Header、Body和Tail三部分组成。每个stripe由Index Data、Row Data和Stripe Footer组成。Tail由File Footer和PostScript组成。

3)建表语句
sql 复制代码
CREATE TABLE orc_table
(
  column_specs
)
STORED AS ORC
TBLPROPERTIES (property_name=property_value, ...);

ORC文件格式支持的参数如下:

参数 默认值 说明
orc.compress ZLIB 压缩格式
orc.compress.size 262,144 每个压缩块的大小
orc.stripe.size 67,108,864 每个stripe的大小
orc.row.index.stride 10,000 索引步长

Parquet

Parquet是一个通用的列式存储文件格式。

1)文件格式

Parquet文件的基本结构由若干个Row Group和一个Footer(File Meta Data)组成。

2)结构

每个Row Group包含多个Column Chunk,每个Column Chunk包含多个Page。

3)建表语句
sql 复制代码
CREATE TABLE parquet_table
(
  column_specs
)
STORED AS PARQUET
TBLPROPERTIES (property_name=property_value, ...);

Parquet文件格式支持的参数如下:

参数 默认值 说明
parquet.compression uncompressed 压缩格式
parquet.block.size 134217728 行组大小
parquet.page.size 1048576 页大小

压缩

Hive表数据进行压缩

1)TextFile

对于TextFile类型的表,可以通过设置以下参数确保输出结果被压缩:

sql 复制代码
SET hive.exec.compress.output=true;
SET mapreduce.output.fileoutputformat.compress.codec=org.apache.hadoop.io.compress.SnappyCodec;
2)ORC
sql 复制代码
CREATE TABLE orc_table
(
  column_specs
)
STORED AS ORC
TBLPROPERTIES ("orc.compress"="snappy");
3)Parquet
sql 复制代码
CREATE TABLE parquet_table
(
  column_specs
)
STORED AS PARQUET
TBLPROPERTIES ("parquet.compression"="snappy");

计算过程中使用压缩

1)单个MR的中间结果进行压缩
sql 复制代码
SET mapreduce.map.output.compress=true;
SET mapreduce.map.output.compress.codec=org.apache.hadoop.io.compress.SnappyCodec;
2)单条SQL语句的中间结果进行压缩
sql 复制代码
SET hive.exec.compress.intermediate=true;
SET hive.intermediate.compression.codec=org.apache.hadoop.io.compress.SnappyCodec;
相关推荐
老蒋新思维43 分钟前
创客匠人峰会新视角:AI 时代知识变现的 “组织化转型”—— 从个人 IP 到 “AI+IP” 组织的增长革命
大数据·人工智能·网络协议·tcp/ip·创始人ip·创客匠人·知识变现
木风小助理1 小时前
子查询与 JOIN 查询性能比较:执行机制与适用场景解析
数据库·sql·mysql
TMO Group 探谋网络科技1 小时前
AI Agent工作原理:如何连接数据、决策与行动,助力企业数字化转型?
大数据·人工智能·ai
Chasing Aurora2 小时前
Git 工程指引(命令+问题)
大数据·git·elasticsearch·团队开发·互联网大厂
TG:@yunlaoda360 云老大3 小时前
阿里云国际站代理商RPA跨境服务的适用场景有哪些?
大数据·阿里云·rpa
微盛企微增长小知识3 小时前
2025企业微信服务商测评:头部服务商微盛AI·企微管家技术实力与落地效果解析
大数据·人工智能·企业微信
zzz大王3 小时前
sql 五十题 26-30
数据库·sql
TMO Group 探谋网络科技3 小时前
AI电商的应用:Magento 使用 Adobe 生成式 AI改造7大业务场景
大数据·人工智能·adobe·ai
UI设计兰亭妙微3 小时前
理性数据,温柔体验:北京兰亭妙微解码 Hydra Corps. 企业管理界面的 “松弛感设计”
大数据·人工智能·用户体验设计
互联网哪些事情3 小时前
服务器防御 SQL 注入
运维·服务器·sql·sql注入主机