【大数据面试题】012 谈谈 Hive 性能优化常用的方法

一步一个脚印,一天一道面试题

  • 数据分区和分桶:合适的分区和分桶能减少数据量的输入

  • 合适的数据格式:Parquet,ORC 是可以减少 I/O ,网络传输速率等的

  • 列裁剪:一般不要使用 SELECT *,只获取真正需要的列

  • 文件合并 :使用 INSERT OVERWRITE 可以减少小文件数量,提高效率

  • 数据过滤 :使用 WHERE 过滤,简单却有效

  • 并行度设置:合理的并行度设置可以更好的利用集群性能,否则可能会"有力使不出"或"杀鸡用牛刀"的情况

  • 数据本地化和 JOIN 化:尽量在本地节点做更多的操作,减少网络传输等开销,比如使用 mapjoin;

  • 定期收集统计信息ANALYZE TABLE 收集表的信息,可以让优化器更可能做出更好的查询计划;

相关推荐
keke.shengfengpolang10 分钟前
2026大专大数据与财务管理:不止是会计
大数据
龙山云仓1 小时前
No160:AI中国故事-对话耿恭——孤城坚守与AI韧性:极端环境与信念之光
大数据·人工智能·机器学习
sensen_kiss1 小时前
INT303 Coursework2 贷款批准预测模型(对整个大数据知识的应用)
大数据·机器学习·数据分析
优思学苑6 小时前
过程能力指标CPK高为何现场仍不稳?
大数据·人工智能·管理·pdca·管理方法
qyr67898 小时前
分布式光纤传感全球市场调研报告分析
大数据·人工智能·物联网·分布式光纤传感·市场分析·市场报告
龙亘川9 小时前
城管住建领域丨市政设施监测功能详解(4)——路灯设施监测
大数据·人工智能·路灯设施监测
XLYcmy9 小时前
智能体大赛 总结与展望 比赛总结
大数据·ai·llm·prompt·agent·qwen·万方数据库
zchxzl10 小时前
亲测2026京津冀专业广告展会
大数据·人工智能·python
Elastic 中国社区官方博客10 小时前
在 Kubernetes 上的依赖管理
大数据·elasticsearch·搜索引擎·云原生·容器·kubernetes·全文检索
babe小鑫10 小时前
大专工业大数据应用专业学习数据分析的价值分析
大数据·学习·数据分析