Apache Paimon 使用之文件系统配置

猫猫爱吃小鱼粮2024-03-08 9:02

Paimon 和 Flink 一样使用了插件式的 file systems，如果使用Flink引擎，用户可以根据 plugin 机制配置 plugin 结构。

然而，对于 Spark 引擎和 Hive 引擎，它们提供的 Jars 可能与 Flink 提供的产生冲突，不能直接使用，因此 Paimon 自己也提供了FileSystem插件，供用户从Spark或Hive端查询表。

支持的文件系统

FileSystem	URI Scheme	Pluggable	Description
Local File System	file://	N	内置支持
HDFS	hdfs://	N	内置支持, 确保集群处于 hadoop environment
Aliyun OSS	oss://	Y
S3	s3://	Y

对于 Flink/Java API：需要配置 Hadoop 环境。

复制代码

设置环境变量HADOOP_HOME或HADOOP_CONF_DIR。
在paimon catalog中配置'hadoop-conf-dir'
通过paimon catalog中的前缀'hadoop.'配置Hadoop选项。

对于 Spark/Hive：HDFS配置可直接通过集群获得。

当Hadoop libraries在类路径上时，所有Hadoop文件系统都会自动可用。

通过这种方式，Paimon无缝支持所有实现org.apache.hadoop.fs.FileSystem接口的Hadoop文件系统，以及所有与Hadoop兼容的文件系统（HCFS）。

Hadoop配置必须在core-site.xml文件中有一个用于所需文件系统实现的配置。

对于Alluxio支持，请在core-site.xml文件中添加以下配置：

复制代码

<property>
  <name>fs.alluxio.impl</name>
  <value>alluxio.hadoop.FileSystem</value>
</property>