spark临时文件较大问题处理

最近使用spark对ods明细表数据进行清洗,由于清洗的表数据量较大,加上集群只有5个节点,磁盘使用率也上去了,导致每次跑spark任务时,都会产生很多临时文件,是由于内存使用完了,就会把临时数据存到磁盘,导致磁盘使用率超过80%以上,spark任务就会报错,具体报错如下:

bash 复制代码
java.io.IOException: No space left on device
java.io.FileNotFoundException: /hadoop/yarn/local/usercache/root/appcache/application_1694660329536_0016/blockmgr-081bea52-e592-4759-8d20-023ae4d85cfa/23/shuffle_0_2193_0.data.1b8c66cc-b32f-46c3-9213-410972743ea4 (No space left on device)

解决方法:

修改yarn的存储路径:

YARN NodeManager Local directories

挂载到磁盘比较大的路径下:

如挂载盘在home目录下,可以使用如下路径:

bash 复制代码
/home/hadoop/yarn/local
相关推荐
滴图服务-七七1 小时前
滴滴地图:精准定位赋能企业数字化转型
大数据·人工智能·地图服务·甲级测绘资质·商业授权
科技互联.6 小时前
破解数据治理效率瓶颈:2026年Data Agent驱动的数据中台能力横向测评
大数据
DataX_ruby827 小时前
2026年数据中台厂商市场份额分析
大数据·人工智能·数据治理·数据中台
汉知宝科技7 小时前
跨境电商品牌合规:出海企业商标管理的特殊挑战与数字化应对
大数据·人工智能
真上帝的左手8 小时前
19. 大数据-数据治理-体系建设全流程
大数据·数据治理
❀抽抽8 小时前
证件照制作API接入指南:700+规格一键生成
大数据·网络·人工智能
Promise微笑9 小时前
绝缘油介损(油介损)测试仪的深层机理、技术演进与精准诊断策略
大数据·网络·人工智能
大C聊AI9 小时前
通用大模型纷纷收费,垂直场景AI工具的价值正在被重估
大数据·人工智能·机器学习·办公效率·ai 工具·智标领航·ai 辅助办公
让学习成为一种生活方式9 小时前
植物基因组数据共享:呼吁全面开放获取--文献精读244
大数据
Java 码思客9 小时前
【ElasticSearch从入门到架构师】第5章:ES DSL 检索语法精讲(核心重点)
大数据·elasticsearch