【大数据面试题】012 谈谈 Hive 性能优化常用的方法

一步一个脚印,一天一道面试题

  • 数据分区和分桶:合适的分区和分桶能减少数据量的输入

  • 合适的数据格式:Parquet,ORC 是可以减少 I/O ,网络传输速率等的

  • 列裁剪:一般不要使用 SELECT *,只获取真正需要的列

  • 文件合并 :使用 INSERT OVERWRITE 可以减少小文件数量,提高效率

  • 数据过滤 :使用 WHERE 过滤,简单却有效

  • 并行度设置:合理的并行度设置可以更好的利用集群性能,否则可能会"有力使不出"或"杀鸡用牛刀"的情况

  • 数据本地化和 JOIN 化:尽量在本地节点做更多的操作,减少网络传输等开销,比如使用 mapjoin;

  • 定期收集统计信息ANALYZE TABLE 收集表的信息,可以让优化器更可能做出更好的查询计划;

相关推荐
黎阳之光42 分钟前
视听融合新范式!黎阳之光打破视觉边界,声影协同赋能全域智慧管控
大数据·人工智能·物联网·算法·数字孪生
iiiiyu1 小时前
集合进阶(Map集合)
java·大数据·开发语言·数据结构·编程语言
塔能物联运维1 小时前
存量机房降本增效:两相液冷技术解锁全生命周期成本优化密码
大数据·人工智能
黎阳之光1 小时前
黎阳之光:视频孪生智慧厂网一体化解决方案|污水处理全场景智能化升级
大数据·人工智能·物联网·安全·数字孪生
DS小龙哥2 小时前
基于ESP32+非接触式微波雷达设计的睡眠监控系统
大数据·人工智能
一切皆是因缘际会3 小时前
依托记忆结构心智体系,AI 自主意识进化路径
大数据·人工智能·安全·搜索引擎·ai
liana87443 小时前
内部聊天软件选型:安全高效是根本
大数据·安全
不开大的凯20773 小时前
海外AI圈的“五月风暴”:一场没有硝烟的全面战争
大数据·人工智能
名不经传的养虾人3 小时前
从0到1:企业级AI项目迭代日记 Vol.28|企业AI的交付不是给工具,而是给搭好的能力
大数据·人工智能·ai编程·ai工作流·企业ai·多agent协作
DianSan_ERP3 小时前
自研电商架构:一套API安全对接60+平台
大数据·运维·数据库·人工智能·安全·架构