Apache Paimon 使用之文件系统配置

1)概述

Paimon 和 Flink 一样使用了插件式的 file systems,如果使用Flink引擎,用户可以根据 plugin 机制配置 plugin 结构。

然而,对于 Spark 引擎 和 Hive 引擎,它们提供的 Jars 可能与 Flink 提供的产生冲突,不能直接使用,因此 Paimon 自己也提供了FileSystem插件,供用户从Spark或Hive端查询表。

支持的文件系统

FileSystem URI Scheme Pluggable Description
Local File System file:// N 内置支持
HDFS hdfs:// N 内置支持, 确保集群处于 hadoop environment
Aliyun OSS oss:// Y
S3 s3:// Y
2)HDFS
1.HDFS 配置

对于 Flink/Java API:需要配置 Hadoop 环境。

复制代码
设置环境变量HADOOP_HOME或HADOOP_CONF_DIR。
在paimon catalog中配置'hadoop-conf-dir'
通过paimon catalog中的前缀'hadoop.'配置Hadoop选项。

对于 Spark/Hive:HDFS配置可直接通过集群获得。

2.Hadoop-compatible file systems (HCFS)

当Hadoop libraries在类路径上时,所有Hadoop文件系统都会自动可用。

通过这种方式,Paimon无缝支持所有实现org.apache.hadoop.fs.FileSystem接口的Hadoop文件系统,以及所有与Hadoop兼容的文件系统(HCFS)。

  • HDFS
  • Alluxio(见下面的配置细节)
  • XtreemFS
  • ...

Hadoop配置必须在core-site.xml文件中有一个用于所需文件系统实现的配置。

对于Alluxio支持,请在core-site.xml文件中添加以下配置:

复制代码
<property>
  <name>fs.alluxio.impl</name>
  <value>alluxio.hadoop.FileSystem</value>
</property>
相关推荐
SelectDB13 小时前
从 Greenplum 到 Doris:集群缩减 2/3、年省数百万,度小满构建超大规模数据分析平台经验
数据库·数据分析·apache
それども1 天前
Apache POI XSSFWorkbook 和 SXSSFWorkbook 的区别
apache·excel
xifangge20252 天前
PHP 错误日志在哪里看?Apache / Nginx / PHP-FPM 一次讲清
nginx·php·apache
潇凝子潇2 天前
Apache Kafka 跨集群复制实现方案
分布式·kafka·apache
大厂技术总监下海2 天前
数据湖加速、实时数仓、统一查询层:Apache Doris 如何成为现代数据架构的“高性能中枢”?
大数据·数据库·算法·apache
鸠摩智首席音效师3 天前
如何在 Apache 中排除特定的代理 URL 请求 ?
apache
SeaTunnel4 天前
Apache SeaTunnel 2025 案例精选重磅发布!
大数据·开源·apache·seatunnel·案例
麦兜*4 天前
Spring Boot 整合 Apache Doris:实现海量数据实时OLAP分析实战
大数据·spring boot·后端·spring·apache
云边有个稻草人4 天前
大数据时代下的时序数据库选型指南:为何Apache IoTDB成为最优解
大数据·apache·时序数据库·apache iotdb
JosieBook5 天前
【数据库】时序数据智能基座:Apache IoTDB 选型与深度实践指南
数据库·apache·iotdb