【大数据面试题】012 谈谈 Hive 性能优化常用的方法

一步一个脚印,一天一道面试题

  • 数据分区和分桶:合适的分区和分桶能减少数据量的输入

  • 合适的数据格式:Parquet,ORC 是可以减少 I/O ,网络传输速率等的

  • 列裁剪:一般不要使用 SELECT *,只获取真正需要的列

  • 文件合并 :使用 INSERT OVERWRITE 可以减少小文件数量,提高效率

  • 数据过滤 :使用 WHERE 过滤,简单却有效

  • 并行度设置:合理的并行度设置可以更好的利用集群性能,否则可能会"有力使不出"或"杀鸡用牛刀"的情况

  • 数据本地化和 JOIN 化:尽量在本地节点做更多的操作,减少网络传输等开销,比如使用 mapjoin;

  • 定期收集统计信息ANALYZE TABLE 收集表的信息,可以让优化器更可能做出更好的查询计划;

相关推荐
忘记9263 小时前
Servlet 生命周期
数据仓库·hive·hadoop
秋刀鱼 ..4 小时前
第二届电力电子技术与电网系统国际学术会议(PETGS 2026)
大数据·python·计算机网络·数学建模·机器人·制造
HelloReader4 小时前
Spark RDD 编程从驱动程序到共享变量、Shuffle 与持久化
大数据
Super_King_4 小时前
Doris 和 Flink 技术相关
大数据·flink
肌肉娃子4 小时前
seatunnel-一种场景mysqlcdc同步进入clickhouse基于2.3.11版本
大数据
AI营销资讯站5 小时前
2025社群运营AI工具TOP榜:从自动化话术到AI CRM系统的终极演进
大数据·人工智能
小小王app小程序开发5 小时前
任务悬赏小程序核心玩法 + 功能全解析:精准匹配与信任构建的变现逻辑
大数据·小程序
vivo互联网技术5 小时前
vivo Celeborn PB级Shuffle优化处理实践
大数据·rss·celeborn·shuffle
真实的菜5 小时前
TDengine实战:构建高性能物联网时序数据存储方案
大数据·物联网·tdengine