【大数据面试题】012 谈谈 Hive 性能优化常用的方法

Jiweilai12024-03-01 13:05

一步一个脚印，一天一道面试题

数据分区和分桶：合适的分区和分桶能减少数据量的输入
合适的数据格式：Parquet，ORC 是可以减少 I/O ，网络传输速率等的
列裁剪：一般不要使用 SELECT *，只获取真正需要的列
文件合并 ：使用 INSERT OVERWRITE 可以减少小文件数量，提高效率
数据过滤 ：使用 WHERE 过滤，简单却有效
并行度设置：合理的并行度设置可以更好的利用集群性能，否则可能会"有力使不出"或"杀鸡用牛刀"的情况
数据本地化和 JOIN 化：尽量在本地节点做更多的操作，减少网络传输等开销，比如使用 mapjoin；
定期收集统计信息 ：ANALYZE TABLE 收集表的信息，可以让优化器更可能做出更好的查询计划；

上一篇：手机如何使用NFC卡模拟门禁刷卡

下一篇：【ZooKeeper 】安装和使用，以及java客户端

热门推荐

01GitHub 镜像站点 02如何新建文件夹？电脑新建文件夹的4种方法 0300 Debian字符界面如何支持中文 04国内可直接用、免费额度/永久免费的大模型API清单（含 SiliconFlow、火山、阿里、智谱、百度、Kimi、DeepSeek、DMXAPI 等）05微信历史版本含下载地址（ Windows PC | 安卓 | MAC ）及设置微信不更新 062026 国产 AI 大模型横评：DeepSeek、通义千问、Kimi、文心一言、星火、豆包谁更能打？07AI 编程 IDE 全景解析 2026：Agent 全面接管开发链路 082026年7月AI圈大地震：GPT-5.6被政府限制、Claude入驻Slack、Anthropic自研芯片 09Agnes AI 免费 API 接入指南：文本、生图、生视频，一套接口全免费 102026 年 AI 大模型 & AI 编程工具实战全总结