paimon使用腾讯云cosn作为仓库存储的使用方式

背景

paimon是flink推出的高性能流式数据湖平台,我们在业务应用中选型了paimon作为数据湖的落地框架。对象存储(Cloud Object Storage,COS)是腾讯云提供的一种存储海量文件的分布式存储服务,用户可通过网络随时存储和查看数据。

我们在大数据存储使用的是腾讯云的cosn对象存储,因此我们需要两者进行结合使用,让cosn作为paimon的存储仓库。

paimon的使用

我们需要用java对paimon进行基本的DDL操作,例如创建数据库,创建数据表等等。根据paimon的官方要求,我们得先构建catalog。

先引入paimon的依赖包

复制代码
<dependency>
  <groupId>org.apache.paimon</groupId>
  <artifactId>paimon-bundle</artifactId>
  <version>1.1-SNAPSHOT</version>
</dependency>
<dependency>
  <groupId>org.apache.paimon</groupId>
  <artifactId>paimon-flink-common</artifactId>
  <version>1.0.0</version>
</dependency>

paimon可以构建2种catalog,一种路径catalog只需要仓库路径,如下:

复制代码
    public static Catalog createFilesystemCatalog() {
        CatalogContext context = CatalogContext.create(new Path("..."));
        return CatalogFactory.createCatalog(context);
    }

另一种catalog,叫做hivecatalog则需要hive的信息和hdfs的信息,如下:

复制代码
    public static Catalog createHiveCatalog() {
        // Paimon Hive catalog relies on Hive jars
        // You should add hive classpath or hive bundled jar.
        Options options = new Options();
        options.set("warehouse", "...");
        options.set("metastore", "hive");
        options.set("uri", "...");
        options.set("hive-conf-dir", "...");
        options.set("hadoop-conf-dir", "...");
        CatalogContext context = CatalogContext.create(options);
        return CatalogFactory.createCatalog(context);
    }

普通存储catalog所创建的元数据信息只存在表的存储路径下,因为使用spark等一些计算引擎会找不到表,所以我们选用的是hivecatalog来创建paimon表。

结合cosn

我们创建hivecatalog时,catalog的warehouse使用的是cosn路径,结果出现如下错误:

那是因为我们还没引入cosn配置。先加入cosn的依赖包,如下:

复制代码
    <dependency>
      <groupId>com.qcloud.cos</groupId>
      <artifactId>hadoop-cos</artifactId>
      <version>3.1.0-8.2.4</version>
    </dependency>
    <dependency>
      <groupId>com.qcloud</groupId>
      <artifactId>cos_api</artifactId>
      <version>5.6.112</version>
    </dependency>

再确保hivecatalog的hadoop-conf-dir参数路径下有hdfs-site.xml,core-site.xml 2个配置文件,并且配置文件根据cosn的hadoop配置 进行配置cosn的各个参数,如下:

再进行使用便能成功创建paimon表了。

总结

paimon创建catalog的warehouse默认走的是hdfs协议,并通过hadoop-conf-dir目录下的配置文件进行适配,配置cosn路径经过测验没有问题,其他同学有空可以试试oss,obs等。

相关推荐
AC赳赳老秦9 小时前
OpenClaw + 飞书多维表格:自动同步数据、生成统计图表、触发自动化任务
java·大数据·python·缓存·自动化·deepseek·openclaw
李昊哲小课9 小时前
PyArrow 完整教程
大数据·数据分析·pandas·pyarrow
lijgvnns9 小时前
散户做股票研究与复盘,主流AI工具的场景化使用指南
大数据·人工智能·数据挖掘
财经资讯数据_灵砚智能9 小时前
基于全球经济类多源新闻的NLP情感分析与数据可视化(日间)2026年6月15日
大数据·人工智能·python·信息可视化·自然语言处理
数据皮皮侠AI9 小时前
上市公司战略性新兴产业专利数据库(2003-2024)
大数据·人工智能·笔记·机器学习·回归
CS_SKILL9 小时前
吉比特 C++ 实习一面面经:一轮把 C++、容器、并发、排序和网络全扫了一遍
java·开发语言·校招面经·实习面经·技术面经·吉比特校招
成都易yisdong9 小时前
上海某平面坐标系与CGCS2000坐标互转详解(含全域拟合点、实战案例、保密规范)
大数据·人工智能·算法
科济管线制药IPD咨询9 小时前
IPD价值量化与商业闭环(3):研发效率、成本与质量的三维量化体系
大数据
2601_961963389 小时前
Spring Boot集成电子签章的7个典型问题与解决方案:从入门到生产级实践
大数据·人工智能·spring boot·python·区块链·智能合约
Jul1en_9 小时前
【SpringCloud】SkyWalking 链路追踪知识详解及部署教程
java·后端·spring·spring cloud·skywalking