hive中常见参数优化总结

1.with as 的cte优化,一般开发中习惯使用with as方便阅读,但如果子查询结果在下游被多次引用,可以使用一定的参数优化手段减少表扫描次数

默认set hive.optimize.cte.materialize.threshold=-1;不自动物化到内存,一般可以设置为

set hive.optimize.cte.materialize.threshold=0;开启物化到内存操作,但执行时是否开启与3个条件相关

(1)子查询复杂程度

(2)下游对子查询的依赖程度

(3)子查询结果的数据大小

2.join相关优化,开启自动翻转join参数,并重新设定小表的限定值

set hive.auto.convert.join=true;

set hive.mapjoin.smalltable.filesize=50000000;

join时候产生了数据倾斜可以使用以下两个参数指定倾斜的字段名称,设定分桶数量,甚至可以指定倾斜的值

SET hive.skewedjoin.key = id;

SET hive.skewedjoin.num.buckets = 2;

set hive.skewedjoin.value=xxx;

例:

SELECT * FROM table1 JOIN table2 ON table1.id = table2.id;

3.开启向量化查询优化,默认不开启,开启后可以批量读取数据,默认大小是1024条,也可以调整为更大

set hive.vectorized.execution.enabled = true;

set hive.vectorized.execution.reduce.enabled = true;

4.设定任务优先级

SET mapreduce.job.priority=VERY_HIGH;

5.hive自动优化参数设置,

set hive.stats.autogather=false;

set hive.stats.column.autogather=false;

参数用于控制Hive是否自动收集表和分区的统计信息、是否自动收集列的统计信息。统计信息可以帮助Hive的优化器更好地制定查询计划。

false意味着Hive不会自动收集统计信息。你需要手动运行ANALYZE TABLE命令来收集统计信息。

set hive.cbo.enable=false;

当 hive.cbo.enable 设置为 false 时,意味着Hive将不会使用CBO来优化查询计划。相反,Hive将使用一种称为"规则基础的优化器"(Rule-Based Optimizer,简称RBO)的方法来优化查询。RBO依赖于预定义的规则来重写或转换查询,而不是基于统计信息和成本评估来选择最佳的执行计划。

6.reduce相关优化参数

set hive.exec.reducers.max=9999;一般设置为集群中 Worker 节点数量的 2 到 3 倍。

set hive.exec.reducers.bytes.per.reducer=524288000;默认值是256MB

set hive.shuffle.compress=true;启用shuffle阶段的压缩操作

set hive.map.aggr=true;聚合函数可以应用于 Map 端,减少 Reduce 阶段的数据量和计算量,但对于不支持 Map 端聚合的聚合函数需要关闭。

7.时候的一些优化

相关推荐
暴躁小师兄数据学院10 小时前
【AI大数据工程师特训笔记】第15讲:大数据环境安装
大数据·hadoop·flink·spark
王小王-12315 小时前
基于 Hadoop + Flask 的电动汽车数据分析与可视化系统设计与实现
hadoop·数据分析·flask·电动汽车·新能源汽车数据分析·新能源汽车销量分析·新能源汽车销售分析
云器科技16 小时前
螳螂科技:从组装到统一,如何用云器 Lakehouse 完美替代“MC+DW+ADB”三件套?
数据库·数据仓库·人工智能
王小王-12316 小时前
基于机器学习与Hadoop的心脏病数据分析与可视化设计与实现
hadoop·机器学习·数据分析·心脏病预测
知识分享小能手16 小时前
Hadoop学习教程,从入门到精通, Hadoop 3.x 高可用集群 — 知识点详解(6)
大数据·hadoop·学习
王小王-1231 天前
基于商品评价的评论情感分析与可视化系统
hive·情感分析·商品评价分析·主题分析·商品评论分析
知识分享小能手2 天前
Hadoop学习教程,从入门到精通, ZooKeeper 分布式协调服务 — 全面知识点与案例代码(5)
hadoop·分布式·zookeeper
Nefu_lyh2 天前
【Hive】 八、Hive 计算引擎:MapReduce / Tez / Spark 对比与选型
hive·spark·mapreduce
知识分享小能手2 天前
Hadoop学习教程,从入门到精通, MapReduce分布式计算框架 — 完整知识点与代码案例(4)
hadoop·学习·mapreduce
白日与明月3 天前
Hive子查询中的ORDER BY陷阱:为什么排序“消失”了?
数据仓库·hive·hadoop