【大数据面试题】012 谈谈 Hive 性能优化常用的方法

一步一个脚印,一天一道面试题

  • 数据分区和分桶:合适的分区和分桶能减少数据量的输入

  • 合适的数据格式:Parquet,ORC 是可以减少 I/O ,网络传输速率等的

  • 列裁剪:一般不要使用 SELECT *,只获取真正需要的列

  • 文件合并 :使用 INSERT OVERWRITE 可以减少小文件数量,提高效率

  • 数据过滤 :使用 WHERE 过滤,简单却有效

  • 并行度设置:合理的并行度设置可以更好的利用集群性能,否则可能会"有力使不出"或"杀鸡用牛刀"的情况

  • 数据本地化和 JOIN 化:尽量在本地节点做更多的操作,减少网络传输等开销,比如使用 mapjoin;

  • 定期收集统计信息ANALYZE TABLE 收集表的信息,可以让优化器更可能做出更好的查询计划;

相关推荐
TDengine (老段)40 分钟前
TDengine 使用最佳实践(2)
大数据·数据库·物联网·时序数据库·iot·tdengine·涛思数据
Deng9452013142 小时前
基于大数据的电力系统故障诊断技术研究
大数据·matplotlib·深度特征提取·随机森林分类算法·标签编码
小菜鸡06264 小时前
FlinkSQL通解
大数据·flink
寅鸷5 小时前
es里为什么node和shard不是一对一的关系
大数据·elasticsearch
码字的字节7 小时前
深入解析Hadoop RPC:技术细节与推广应用
hadoop·rpc
码字的字节7 小时前
深入解析Hadoop架构设计:原理、组件与应用
大数据·hadoop·分布式·hadoop架构设计
阿里云大数据AI技术9 小时前
云上AI推理平台全掌握 (3):服务接入与全球调度
大数据·人工智能·深度学习
时序数据说9 小时前
如何选择时序数据库:关键因素与实用指南
大数据·数据库·物联网·时序数据库·iotdb
金牌服务刘9 小时前
选择一个系统作为主数据源的优势与考量
大数据·数据分析·连续集成
青云交10 小时前
Java 大视界 -- Java 大数据在智能安防视频监控系统中的视频摘要快速生成与检索优化(345)
java·大数据·智能安防·视频摘要·检索优化·校园安防·低带宽传输