【大数据面试题】012 谈谈 Hive 性能优化常用的方法

一步一个脚印,一天一道面试题

  • 数据分区和分桶:合适的分区和分桶能减少数据量的输入

  • 合适的数据格式:Parquet,ORC 是可以减少 I/O ,网络传输速率等的

  • 列裁剪:一般不要使用 SELECT *,只获取真正需要的列

  • 文件合并 :使用 INSERT OVERWRITE 可以减少小文件数量,提高效率

  • 数据过滤 :使用 WHERE 过滤,简单却有效

  • 并行度设置:合理的并行度设置可以更好的利用集群性能,否则可能会"有力使不出"或"杀鸡用牛刀"的情况

  • 数据本地化和 JOIN 化:尽量在本地节点做更多的操作,减少网络传输等开销,比如使用 mapjoin;

  • 定期收集统计信息ANALYZE TABLE 收集表的信息,可以让优化器更可能做出更好的查询计划;

相关推荐
dragonzoebai36 分钟前
ol加载互联网瓦片大于18级时空白
大数据
AI营销快线1 小时前
AI营销下半场:B2B选型指南
大数据·人工智能
一只专注api接口开发的技术猿2 小时前
构建电商数据中台:基于淘宝 API 关键词搜索接口的设计与实现
大数据·开发语言·数据库
LaughingZhu3 小时前
Product Hunt 每日热榜 | 2025-12-01
大数据·人工智能·经验分享·搜索引擎·产品运营
TOYOAUTOMATON3 小时前
自动化工业夹爪
大数据·人工智能·算法·目标检测·机器人
浩浩测试一下3 小时前
C&&汇编中的调用约定
大数据·汇编·安全·web安全·网络安全·系统安全
鹿衔`3 小时前
CDH 6.3.2 集群外挂部署 Spark 3.5.7 连接 Paimon 1.1.1 (二)
大数据·分布式·spark
aitoolhub4 小时前
课程表模板在线制作:稿定设计的实用方案
大数据·深度学习·教育电商·在线设计·教育培训
2301_800256115 小时前
8.3 查询优化 核心知识点总结
大数据·数据库·人工智能·sql·postgresql
samFuB5 小时前
【工具变量】全国社保落户制度改革城市DID数据(2010-2025年)
大数据