Apache Paimon 使用之文件系统配置

1)概述

Paimon 和 Flink 一样使用了插件式的 file systems,如果使用Flink引擎,用户可以根据 plugin 机制配置 plugin 结构。

然而,对于 Spark 引擎 和 Hive 引擎,它们提供的 Jars 可能与 Flink 提供的产生冲突,不能直接使用,因此 Paimon 自己也提供了FileSystem插件,供用户从Spark或Hive端查询表。

支持的文件系统

FileSystem URI Scheme Pluggable Description
Local File System file:// N 内置支持
HDFS hdfs:// N 内置支持, 确保集群处于 hadoop environment
Aliyun OSS oss:// Y
S3 s3:// Y
2)HDFS
1.HDFS 配置

对于 Flink/Java API:需要配置 Hadoop 环境。

复制代码
设置环境变量HADOOP_HOME或HADOOP_CONF_DIR。
在paimon catalog中配置'hadoop-conf-dir'
通过paimon catalog中的前缀'hadoop.'配置Hadoop选项。

对于 Spark/Hive:HDFS配置可直接通过集群获得。

2.Hadoop-compatible file systems (HCFS)

当Hadoop libraries在类路径上时,所有Hadoop文件系统都会自动可用。

通过这种方式,Paimon无缝支持所有实现org.apache.hadoop.fs.FileSystem接口的Hadoop文件系统,以及所有与Hadoop兼容的文件系统(HCFS)。

  • HDFS
  • Alluxio(见下面的配置细节)
  • XtreemFS
  • ...

Hadoop配置必须在core-site.xml文件中有一个用于所需文件系统实现的配置。

对于Alluxio支持,请在core-site.xml文件中添加以下配置:

复制代码
<property>
  <name>fs.alluxio.impl</name>
  <value>alluxio.hadoop.FileSystem</value>
</property>
相关推荐
倔强的石头1066 小时前
边缘侧时序数据的选型指南:网络不稳定、数据不丢、回传可控——用 Apache IoTDB 设计可靠链路
网络·apache·iotdb
A-刘晨阳9 小时前
2026年时序数据库选型指南:从大数据视角深度解析Apache IoTDB的技术优势与实践路径
大数据·apache·时序数据库
todoitbo9 小时前
时序数据库选型指南:面向工业物联网的工程视角,以 Apache IoTDB 为例
物联网·apache·时序数据库·iotdb
枫叶丹410 小时前
时序数据库选型指南:在大数据浪潮中把握未来,为何Apache IoTDB值得关注?
大数据·数据库·apache·时序数据库·iotdb
wei_shuo12 小时前
国产时序数据库的云原生实践:Apache IoTDB 与 TimechoDB 在物联网场景的深度应用
云原生·apache·时序数据库
Aloudata1 天前
数据治理选型对比:Apache Atlas vs 商业平台在存储过程解析与自动化治理的实测分析
数据挖掘·自动化·apache·元数据·数据血缘
世界尽头与你1 天前
CVE-2017-5645_ Apache Log4j Server 反序列化命令执行漏洞
网络安全·渗透测试·log4j·apache
迎仔1 天前
03-Apache Tez 通俗指南:MapReduce 的“高速公路”升级包
大数据·apache·mapreduce
世界尽头与你1 天前
CVE-2025-55752_ Apache Tomcat 安全漏洞
java·安全·网络安全·渗透测试·tomcat·apache
HMX4041 天前
【春秋云境】CVE-2025-44137 TileServer PHP v2.0任意文件读取漏洞
apache·安全漏洞·漏洞复测