【大数据面试题】012 谈谈 Hive 性能优化常用的方法

一步一个脚印,一天一道面试题

  • 数据分区和分桶:合适的分区和分桶能减少数据量的输入

  • 合适的数据格式:Parquet,ORC 是可以减少 I/O ,网络传输速率等的

  • 列裁剪:一般不要使用 SELECT *,只获取真正需要的列

  • 文件合并 :使用 INSERT OVERWRITE 可以减少小文件数量,提高效率

  • 数据过滤 :使用 WHERE 过滤,简单却有效

  • 并行度设置:合理的并行度设置可以更好的利用集群性能,否则可能会"有力使不出"或"杀鸡用牛刀"的情况

  • 数据本地化和 JOIN 化:尽量在本地节点做更多的操作,减少网络传输等开销,比如使用 mapjoin;

  • 定期收集统计信息ANALYZE TABLE 收集表的信息,可以让优化器更可能做出更好的查询计划;

相关推荐
L***一7 小时前
大数据技术专业中专生职业发展路径探析
大数据
woshikejiaih7 小时前
**播客听书与有声书区别解析2026指南,适配不同场景的音频
大数据·人工智能·python·音视频
无忧智库7 小时前
某市“十五五“智慧气象防灾减灾精准预报系统建设方案深度解读 | 从“看天吃饭“到“知天而作“的数字化转型之路(WORD)
大数据·人工智能
AllData公司负责人7 小时前
AllData数据中台-数据同步平台【Seatunnel-Web】整库同步MySQL同步Doris能力演示
大数据·数据库·mysql·开源
acrelwwj7 小时前
智慧照明新引擎,ASL600 4GWJ开启城市照明精细化管理新时代
大数据·经验分享·物联网
Gain_chance7 小时前
33-学习笔记尚硅谷数仓搭建-DWS层交易域用户粒度订单表分析及设计代码
数据库·数据仓库·hive·笔记·学习·datagrip
2501_943695338 小时前
高职大数据技术专业,怎么参与开源数据分析项目积累经验?
大数据·数据分析·开源
Dxy12393102168 小时前
别再让 ES 把你拖垮!5 个实战技巧让搜索性能提升 10 倍
大数据·elasticsearch·搜索引擎
2501_943695339 小时前
大专市场调查与统计分析专业,怎么辨别企业招聘的“画饼”岗位?
大数据
七夜zippoe9 小时前
CANN Runtime跨进程通信 共享设备上下文的IPC实现
大数据·cann