argodb自定义函数读取hdfs文件的注意点,避免FileSystem已关闭异常

一、问题描述

一位同学反馈,他写的argo存过中调用了一个自定义函数,函数会加载hdfs上的一个文件,但有些节点会报FileSystem closed异常,同时有时任务会成功,有时会失败。

二、问题分析

argodb的计算引擎是基于spark的定制化引擎,对于自定义函数的调用跟hive on spark的是一致的。udf要通过反射生成实例,然后迭代调用evaluate。通过代码分析,udf在读取完hdfs文件后会关闭FS,这在逻辑上是正确的,那为什么还会出现HDFS文件系统已关闭的异常?难道是Spark的各个不同节点的executor共享了FS(客户端)?顺着这一点,可以查看集群上这个配置项的值,即"fs.hdfs.impl.disable.cache",这个值默认是false(出现性能考虑),但这意味着hdfs文件系统的实现类(DistributedFileSystem)实例是共享、缓存的,在spark不同的executor中一旦有一个任务关闭了fs,那么其它的executor也会受到影响,这也是报fs closed异常的原因,所以将fs.hdfs.impl.disable.cache设置成true,不允许缓存fs。即可解决该问题。

三、问题解决

fs.hdfs.impl.disable.cache=true

相关推荐
白帽子黑客罗哥几秒前
举例说明在真实业务场景中,如何平衡安全防御方案与系统性能、用户体验的关系?
大数据·安全·ux
AC赳赳老秦1 分钟前
CSV大文件处理全流程:数据清洗、去重与格式标准化深度实践
大数据·开发语言·人工智能·python·算法·机器学习·deepseek
珑哥说自养号采购1 分钟前
Temu、Shein、速卖通,全托半托管模式下怎样通过测评补单破解店铺流量困局?
大数据
雨大王5123 分钟前
工业AI驱动汽车供应链:效率提升的秘密武器
大数据·人工智能
kdniao14 分钟前
问答FAQ|快递鸟对接系统/小程序常见问题解答产品篇(二)
大数据·小程序
武子康8 分钟前
Java-215 RocketMQ 消费模式:Push vs Pull 的本质、长轮询机制与 Offset/积压调优要
java·大数据·分布式·消息队列·rocketmq·java-rocketmq·mq
zhang_xiaoyu589 分钟前
安徽省宣城市国控集团党委书记、董事长钱邦青一行到访国联股份卫多多
大数据·人工智能
EasyCVR11 分钟前
视频汇聚平台EasyCVR筑牢智慧物流全场景可视化安全防线
大数据·安全·音视频
红队it19 分钟前
【数据分析】基于Spark链家网租房数据分析可视化大屏(完整系统源码+数据库+开发笔记+详细部署教程+虚拟机分布式启动教程)✅
java·数据库·hadoop·分布式·python·数据分析·spark
奥特曼_ it20 分钟前
【数据分析】基于Spark链家网租房数据分析可视化大屏(完整系统源码+数据库+开发笔记+详细部署教程+虚拟机分布式启动教程)✔
大数据·笔记·分布式·数据挖掘·数据分析·spark·毕设