doris:阿里云 DLF

阿里云 Data Lake Formation(DLF) 是阿里云上的统一元数据管理服务。兼容 Hive Metastore 协议。

什么是 Data Lake Formation

因此我们也可以和访问 Hive Metastore 一样,连接并访问 DLF。

连接 DLF

创建 DLF Catalog

复制代码
CREATE CATALOG dlf PROPERTIES (
   "type"="hms",
   "hive.metastore.type" = "dlf",
   "dlf.proxy.mode" = "DLF_ONLY",
   "dlf.endpoint" = "datalake-vpc.cn-beijing.aliyuncs.com",
   "dlf.region" = "cn-beijing",
   "dlf.uid" = "uid",
   "dlf.catalog.id" = "catalog_id", //可选
   "dlf.access_key" = "ak",
   "dlf.secret_key" = "sk"
);

其中 type 固定为 hms。如果需要公网访问阿里云对象存储的数据,可以设置 "dlf.access.public"="true"

其他配置项为固定值,无需改动。

之后,可以像正常的 Hive MetaStore 一样,访问 DLF 下的元数据。

同 Hive Catalog 一样,支持访问 DLF 中的 Hive/Iceberg/Hudi 的元数据信息。

使用开启了 HDFS 服务的 OSS 存储数据

  1. 确认 OSS 开启了 HDFS 服务。开通并授权访问 OSS-HDFS 服务

  2. 下载 SDK。JindoData SDK 下载。如果集群上已有 SDK 目录,忽略这一步。

  3. 解压下载后的 jindosdk.tar.gz 或者在集群上找到 Jindo SDK 的目录,将其 lib 目录下的jindo-core.jar、jindo-sdk.jar放到${DORIS_HOME}/fe/lib${DORIS_HOME}/be/lib/java_extensions/preload-extensions目录下。

  4. 创建 DLF Catalog,并配置oss.hdfs.enabledtrue

    复制代码
    CREATE CATALOG dlf_oss_hdfs PROPERTIES (
       "type"="hms",
       "hive.metastore.type" = "dlf",
       "dlf.proxy.mode" = "DLF_ONLY",
       "dlf.endpoint" = "datalake-vpc.cn-beijing.aliyuncs.com",
       "dlf.region" = "cn-beijing",
       "dlf.uid" = "uid",
       "dlf.catalog.id" = "catalog_id", //可选
       "dlf.access_key" = "ak",
       "dlf.secret_key" = "sk",
       "oss.hdfs.enabled" = "true"
    );
  5. 当 Jindo SDK 版本与 EMR 集群上所用的版本不一致时,会出现Plugin not found的问题,需更换到对应版本。

访问 DLF Iceberg 表

复制代码
CREATE CATALOG dlf_iceberg PROPERTIES (
   "type"="iceberg",
   "iceberg.catalog.type" = "dlf",
   "dlf.proxy.mode" = "DLF_ONLY",
   "dlf.endpoint" = "datalake-vpc.cn-beijing.aliyuncs.com",
   "dlf.region" = "cn-beijing",
   "dlf.uid" = "uid",
   "dlf.catalog.id" = "catalog_id", //可选
   "dlf.access_key" = "ak",
   "dlf.secret_key" = "sk"
);

列类型映射

和 Hive Catalog 一致,可参阅 Hive Catalog列类型映射 一节。

相关推荐
涤生大数据10 天前
探索Doris:日志分析的新宠,是否能取代老牌ES?
大数据·elasticsearch·doris
SelectDB技术团队13 天前
Apache Doris 2.1.9 版本正式发布
大数据·数据仓库·数据分析·doris·数据湖·湖仓一体·日志数据
向阳121818 天前
doris:备份
后端·python·flask·doris
向阳121825 天前
Ranger 鉴权
doris
張萠飛1 个月前
Doris官网上没有的一些Fe参数了,都在源码中
doris
涤生大数据1 个月前
Doris 湖仓一体:数据分析新范式
数据仓库·数据挖掘·数据分析·doris·数据湖·数字化转型·湖仓一体
SelectDB技术团队1 个月前
天翼云:Apache Doris + Iceberg 超大规模湖仓一体实践
大数据·数据库·iceberg·doris·数据湖·湖仓一体·天翼云
向阳12181 个月前
Doris:联邦认证
doris
向阳12181 个月前
doris:安全概览
doris
向阳12181 个月前
使用 Doris 和 Hudi
doris·hudi