spark广播表大小超过Spark默认的8GB限制

报错:

org.apache.hive.service.cli.HiveSQLException: Error running query: java.util.concurrent.ExecutionException: org.apache.spark.SparkException: Cannot broadcast the table that is larger than 8GB: 10 GB

解决方案

方案1:增加广播阈值

设置参数 SET spark.sql.autoBroadcastJoinThreshold = 10485760;(10G)根据实际情况变更

方案2:禁用广播连接

设置参数 set spark.sql.autoBroadcastJoinThreshold=-1;

相关推荐
小Tomkk5 分钟前
数据库 变更和版本控制管理工具 --Bytebase 安装部署(linux 安装篇)
linux·运维·数据库·ci/cd·bytebase
惊讶的猫8 分钟前
rabbitmq初步介绍
分布式·rabbitmq
小镇敲码人24 分钟前
华为CANN框架中HCCL仓库的全面解析:分布式通信的引擎
分布式·华为
qq_124987075330 分钟前
基于JavaWeb的大学生房屋租赁系统(源码+论文+部署+安装)
java·数据库·人工智能·spring boot·计算机视觉·毕业设计·计算机毕业设计
艾莉丝努力练剑40 分钟前
【Linux:文件】Ext系列文件系统(初阶)
大数据·linux·运维·服务器·c++·人工智能·算法
User_芊芊君子1 小时前
【分布式训练】CANN SHMEM跨设备内存通信库:构建高效多机多卡训练的关键组件
分布式·深度学习·神经网络·wpf
倒流时光三十年1 小时前
SpringBoot 数据库同步 Elasticsearch 性能优化
数据库·spring boot·elasticsearch
酷酷的崽7981 小时前
CANN 开源生态解析(四):`cann-dist-train` —— 构建高效可扩展的分布式训练引擎
分布式·开源
码农小卡拉1 小时前
深入解析Spring Boot文件加载顺序与加载方式
java·数据库·spring boot
怣501 小时前
MySQL多表连接:全外连接、交叉连接与结果集合并详解
数据库·sql