Apache Paimon 使用之文件系统配置

1)概述

Paimon 和 Flink 一样使用了插件式的 file systems,如果使用Flink引擎,用户可以根据 plugin 机制配置 plugin 结构。

然而,对于 Spark 引擎 和 Hive 引擎,它们提供的 Jars 可能与 Flink 提供的产生冲突,不能直接使用,因此 Paimon 自己也提供了FileSystem插件,供用户从Spark或Hive端查询表。

支持的文件系统

FileSystem URI Scheme Pluggable Description
Local File System file:// N 内置支持
HDFS hdfs:// N 内置支持, 确保集群处于 hadoop environment
Aliyun OSS oss:// Y
S3 s3:// Y
2)HDFS
1.HDFS 配置

对于 Flink/Java API:需要配置 Hadoop 环境。

复制代码
设置环境变量HADOOP_HOME或HADOOP_CONF_DIR。
在paimon catalog中配置'hadoop-conf-dir'
通过paimon catalog中的前缀'hadoop.'配置Hadoop选项。

对于 Spark/Hive:HDFS配置可直接通过集群获得。

2.Hadoop-compatible file systems (HCFS)

当Hadoop libraries在类路径上时,所有Hadoop文件系统都会自动可用。

通过这种方式,Paimon无缝支持所有实现org.apache.hadoop.fs.FileSystem接口的Hadoop文件系统,以及所有与Hadoop兼容的文件系统(HCFS)。

  • HDFS
  • Alluxio(见下面的配置细节)
  • XtreemFS
  • ...

Hadoop配置必须在core-site.xml文件中有一个用于所需文件系统实现的配置。

对于Alluxio支持,请在core-site.xml文件中添加以下配置:

复制代码
<property>
  <name>fs.alluxio.impl</name>
  <value>alluxio.hadoop.FileSystem</value>
</property>
相关推荐
就叫_这个吧2 天前
servlet整合tomcat项目启动报错解决,org.apache.tomcat.util.descriptor.web.WebXml.setVersion
java·servlet·tomcat·apache
云器科技2 天前
Apache Iceberg-cpp:原生性能架构与演进路线
架构·apache
Par@ish2 天前
Ubuntu Apache日志存储周期变更
linux·ubuntu·apache
一次旅行4 天前
【数据分析/可视化】Apache Superset企业级BI数据可视化平台实战详解
信息可视化·数据分析·apache
万岳科技系统开发5 天前
互联网医院小程序搭建如何快速上线?完整建设方案解析
小程序·apache
南山丶无梅落6 天前
文件上传漏洞1
apache·绕过·文件上传漏洞·网安·upload闯关·文件类型验证
kke_886 天前
电商/教育/工具类小程序,UV分析的3种不同思路
大数据·apache
nvd117 天前
深度解析:Apache Beam YAML 部署至 GCP Dataflow 的架构与最佳实践
架构·apache
27669582928 天前
拼多多m端/小程序 encrypt_info
java·小程序·apache·encrypt_info·encrypt_info解密·拼多多小程序·拼多多m端
ylscode9 天前
Apache CXF LDAP注入漏洞允许攻击者获取任意证书
apache