Apache Paimon 使用之文件系统配置

1)概述

Paimon 和 Flink 一样使用了插件式的 file systems,如果使用Flink引擎,用户可以根据 plugin 机制配置 plugin 结构。

然而,对于 Spark 引擎 和 Hive 引擎,它们提供的 Jars 可能与 Flink 提供的产生冲突,不能直接使用,因此 Paimon 自己也提供了FileSystem插件,供用户从Spark或Hive端查询表。

支持的文件系统

FileSystem URI Scheme Pluggable Description
Local File System file:// N 内置支持
HDFS hdfs:// N 内置支持, 确保集群处于 hadoop environment
Aliyun OSS oss:// Y
S3 s3:// Y
2)HDFS
1.HDFS 配置

对于 Flink/Java API:需要配置 Hadoop 环境。

复制代码
设置环境变量HADOOP_HOME或HADOOP_CONF_DIR。
在paimon catalog中配置'hadoop-conf-dir'
通过paimon catalog中的前缀'hadoop.'配置Hadoop选项。

对于 Spark/Hive:HDFS配置可直接通过集群获得。

2.Hadoop-compatible file systems (HCFS)

当Hadoop libraries在类路径上时,所有Hadoop文件系统都会自动可用。

通过这种方式,Paimon无缝支持所有实现org.apache.hadoop.fs.FileSystem接口的Hadoop文件系统,以及所有与Hadoop兼容的文件系统(HCFS)。

  • HDFS
  • Alluxio(见下面的配置细节)
  • XtreemFS
  • ...

Hadoop配置必须在core-site.xml文件中有一个用于所需文件系统实现的配置。

对于Alluxio支持,请在core-site.xml文件中添加以下配置:

复制代码
<property>
  <name>fs.alluxio.impl</name>
  <value>alluxio.hadoop.FileSystem</value>
</property>
相关推荐
GM_8287 小时前
从0开始在Go当中使用Apache Thrift框架(万字讲解+图文教程+详细代码)
rpc·go·apache·thrift
观望过往16 小时前
Apache IoTDB 技术深度解析:存储引擎、查询优化与分布式架构在工业物联网、智慧能源和车联网场景的应用指南
apache·iotdb
ApachePulsar17 小时前
Apache Pulsar 在小红书线上场景的探索与实践
apache
迦蓝叶1 天前
Apache Jena SPARQL 查询完全指南:入门与实战案例
apache·知识图谱·图搜索算法·三元组·jena·sparql·图查询
向上的车轮2 天前
数据中台工作流编排引擎:Apache Airflow
apache
雾迟sec2 天前
Web安全-文件上传漏洞-黑白名单及其它绕过思路(附思维导图)
javascript·安全·web安全·网络安全·apache·安全威胁分析
yumgpkpm2 天前
CMP(类Cloudera CDP 7.3 404版华为泰山Kunpeng)和Apache Doris的对比
大数据·hive·hadoop·spark·apache·hbase·cloudera
zhangkaixuan4562 天前
Apache Paimon 查询全流程深度分析
java·apache·paimon
A-刘晨阳3 天前
时序数据库选型指南:从大数据视角切入,聚焦 Apache IoTDB
大数据·apache·时序数据库·iotdb
迦蓝叶3 天前
使用 Apache Jena 构建 Java 知识图谱
java·apache·知识图谱·图搜索·关系查询·关系推理