【大数据面试题】012 谈谈 Hive 性能优化常用的方法

一步一个脚印,一天一道面试题

  • 数据分区和分桶:合适的分区和分桶能减少数据量的输入

  • 合适的数据格式:Parquet,ORC 是可以减少 I/O ,网络传输速率等的

  • 列裁剪:一般不要使用 SELECT *,只获取真正需要的列

  • 文件合并 :使用 INSERT OVERWRITE 可以减少小文件数量,提高效率

  • 数据过滤 :使用 WHERE 过滤,简单却有效

  • 并行度设置:合理的并行度设置可以更好的利用集群性能,否则可能会"有力使不出"或"杀鸡用牛刀"的情况

  • 数据本地化和 JOIN 化:尽量在本地节点做更多的操作,减少网络传输等开销,比如使用 mapjoin;

  • 定期收集统计信息ANALYZE TABLE 收集表的信息,可以让优化器更可能做出更好的查询计划;

相关推荐
试剂界的爱马仕19 分钟前
AI学习实现:如何给基金实时估值?
大数据·人工智能·科技·学习·机器学习
隐于花海,等待花开1 小时前
15.TO_DATE 函数深度解析
大数据·hive
小的~~1 小时前
排查Flink状态膨胀导致Checkpoint超时的问题
大数据·flink
数智化精益手记局1 小时前
什么是安全生产?解读安全生产的基本方针与核心要求
大数据·运维·人工智能·安全·信息可视化·自动化·精益工程
一个程序猿老马1 小时前
013、推送与拉取:git push与git pull的协作流程
大数据·git·elasticsearch
Rubin智造社1 小时前
04月25日AI每日参考:谷歌豪掷400亿押注Anthropic,DeepSeek V4横空出世
大数据·人工智能·物联网·comfyui·deepseek v4·谷歌anthropic投资·meta亚马逊芯片
冯RI375II694872 小时前
儿童牙胶CPSC和FDA认证的测试费用大概是多少?
大数据
企业架构师老王2 小时前
药品生产环节:用实在Agent自动生成批记录与打印领料单的合规设计与架构落地
大数据·人工智能·ai·架构
黎阳之光2 小时前
视频孪生重构轨交数字孪生新范式|黎阳之光以自主核心技术破解落地难题
大数据·人工智能·算法·安全·数字孪生
大大大大晴天️2 小时前
Flink技术实践-监控指标异常诊断与运维
大数据·运维·flink