大数据hive_mr压缩问题

Hive中压缩的设置:注意 本质还是指的是MapReduce的压缩

--设置Hive的中间压缩 也就是map的输出压缩

1)开启 hive 中间传输数据压缩功能

set hive.exec.compress.intermediate=true;

2)开启 mapreduce 中 map 输出压缩功能

set mapreduce.map.output.compress=true;

3)设置 mapreduce 中 map 输出数据的压缩方式

set mapreduce.map.output.compress.codec = org.apache.hadoop.io.compress.SnappyCodec;

--设置Hive的最终输出压缩,也就是Reduce输出压缩

1)开启 hive 最终输出数据压缩功能

set hive.exec.compress.output=true;

2)开启 mapreduce 最终输出数据压缩

set mapreduce.output.fileoutputformat.compress=true;

3)设置 mapreduce 最终数据输出压缩方式

set mapreduce.output.fileoutputformat.compress.codec =org.apache.hadoop.io.compress.SnappyCodec;

4)设置 mapreduce 最终数据输出压缩为块压缩 还可以指定RECORD

set mapreduce.output.fileoutputformat.compress.type=BLOCK;

相关推荐
水火既济__1 小时前
hive中加载json数据建表(大规模)
hive·hadoop·json
一个数据大开发2 小时前
企业知识工程的三条路线:Neo4j 知识中台、Agent + Action 与本体原生 Runtime
大数据·python·neo4j
ZOOOOOOU2 小时前
云平台赋能门禁终端,打造智慧社区一体化管理
大数据·数据结构·架构
千瓜2 小时前
“小赛”掀“大浪”,小红书种草野生玩法
大数据·人工智能·数据分析·生活·新媒体
大数据流动2 小时前
OpenMetadata 1.13 正式发布!AI 数据治理开始进入语义上下文时代
大数据·人工智能
Bode_20022 小时前
AI时代下加速制造企业创新
大数据·人工智能·机器学习
OYangxf2 小时前
Git Conflict Resolution
大数据·git·elasticsearch
人工智能培训2 小时前
如何定义和测量“通用具身智能”
大数据·人工智能·机器学习·prompt·agent
青槿吖2 小时前
第一篇:Elasticsearch 入门踩坑记:从 “URL 拼写错误” 到跑通第一个搜索服务
大数据·elasticsearch·搜索引擎·spring cloud·微服务·架构·全文检索