【大数据面试题】012 谈谈 Hive 性能优化常用的方法

一步一个脚印,一天一道面试题

  • 数据分区和分桶:合适的分区和分桶能减少数据量的输入

  • 合适的数据格式:Parquet,ORC 是可以减少 I/O ,网络传输速率等的

  • 列裁剪:一般不要使用 SELECT *,只获取真正需要的列

  • 文件合并 :使用 INSERT OVERWRITE 可以减少小文件数量,提高效率

  • 数据过滤 :使用 WHERE 过滤,简单却有效

  • 并行度设置:合理的并行度设置可以更好的利用集群性能,否则可能会"有力使不出"或"杀鸡用牛刀"的情况

  • 数据本地化和 JOIN 化:尽量在本地节点做更多的操作,减少网络传输等开销,比如使用 mapjoin;

  • 定期收集统计信息ANALYZE TABLE 收集表的信息,可以让优化器更可能做出更好的查询计划;

相关推荐
无忧智库1 小时前
基于C4ISR与数据链的智慧应急体系:从“透明战场”到“透明城市”的数字化指挥解决方案(170页PPT)
大数据·人工智能·智慧城市
奇点爆破XC1 小时前
Hadoop大数据生态(Ambari管理)组件服务详解
大数据·hadoop·ambari
量化君也2 小时前
快速入门量化交易都要学些什么?
大数据·人工智能·python·算法·金融
吴卫斌2 小时前
行业ETF轮动策略实战(二):精选候选池——打造你的赛道武器库
大数据·python·股票·量化交易
方向研究2 小时前
破解蒙代尔三角
大数据
大任视点2 小时前
从云经济学之父,到人工智能经济学奠基人
大数据·人工智能·业界资讯
Antom全球收单2 小时前
跨境B2B支付平台与全球收单平台有什么区别?一文讲清
大数据
科技风向标go2 小时前
QYResearch联合发布:《2026室外网络摄像头行业白皮书》格行视精灵成用户室外硬核环境首选监控
大数据·网络·安全·监控·户外安防
珠***格2 小时前
Ⅱ型边缘网关|易部署、易扩容、易改造
大数据·人工智能·分布式·能源·边缘计算
-山中问答-2 小时前
【大数据系统分析与设计】架构、应用系统结构化分析核心知识点
大数据·架构·系统分析