Apache Doris 4.0 的 AI 功能(LLM 函数 + 向量索引)与 Cloudera CDP 7.3(或类 CDP 的 CMP 7.13 平台,如华为鲲鹏 ARM 版)融合

Apache Doris 4.0 的 AI 功能(LLM 函数 + 向量索引)与 Cloudera CDP 7.3(或类 CDP 的 CMP 7.13 平台,如华为鲲鹏 ARM 版)融合

Apache Doris 4.0 的 AI 功能(LLM 函数 + 向量索引)与 Cloudera CDP 7.3 (或类 CDP 的 CMP 7.13 平台,如华为鲲鹏 ARM 版)本身并无官方集成,但可以通过 架构协同、数据互通、安全对齐 等方式实现功能融合,构建"CMP 负责数据湖治理 + Doris 负责智能实时分析"的混合 AI 数据平台。

以下是两者融合的可行路径、关键技术点和实施建议:


一、整体融合架构

Text:

+---------------------------------------------+

| Cloudera CMP 7 (CMP 7) |

| - HDFS / S3 (Data Lake) |

| - Hive Metastore (统一元数据) |

| - Spark / Flink on YARN (批流计算) |

| - Ranger / Kerberos (安全认证) |

| - Atlas (数据血缘) |

+----------------------+----------------------+

↑↓ (Hive Catalog / Broker Load / Spark Connector)

+---------------------------------------------+

| Apache Doris 4.0 (独立部署) |

| - LLM 函数:SQL 内调用大模型 |

| - 向量索引:支持 ANN 语义检索 |

| - MySQL 协议:BI/应用直连 |

+---------------------------------------------+

核心原则 :Doris 不侵入 CMP 集群,作为 外部高性能 AI 分析引擎 存在。


二、关键融合能力与实现方式

1. 元数据互通:Doris 读取 CMP Hive 表(含 Kerberos

使用 Doris 2.0+ 的 External Hive Catalog,直接查询 CMP 中的 Hive 表,无需数据移动。

Sql:

-- 在 Doris 中创建 Hive Catalog(支持 Kerberos)

CREATE EXTERNAL CATALOG CMP_hive_krb

PROPERTIES (

"type" = "hive",

"hive.metastore.uris" = "thrift://CMP-hms-host:9083",

"hive.metastore.sasl.enabled" = "true",

"hive.metastore.kerberos.principal" = "hive/_HOST@EXAMPLE.COM",

"doris.hive.catalog.kerberos.principal" = "doris/doris-node1@EXAMPLE.COM",

"doris.hive.catalog.kerberos.keytab" = "/etc/security/keytabs/doris.keytab",

"hadoop.security.authentication" = "kerberos"

);

✅ 应用场景:

  • 在 Doris 中对 CMP 的用户行为日志表执行 LLM_SENTIMENT(comment) 实时情感分析;
  • 对 Hive 中的商品描述字段进行 LLM_FIXGRAMMAR 清洗后入库 Doris 明细表。

2. 数据写入:CMP Spark/Flink → Doris (带 Kerberos

通过 官方 Spark/Flink Doris Connector,将 CMP 中的计算结果写入 Doris。

示例:PySpark 写入(CMP 7.3.1 + Spark 3.2

Python:

df = spark.sql("SELECT user_id, raw_text FROM hive_table WHERE dt = '2025-11-10'")

df.write.format("doris") \

.option("doris.fenodes", "doris-fe:8030") \

.option("doris.table.identifier", "ai_analytics.cleaned_feedback") \

.option("user", "root") \

.option("password", "") \

.mode("append") \

.save()

🔐 安全说明:

  • Spark 作业本身已通过 CMP 的 Kerberos 认证;
  • Doris 写入走 Stream Load (HTTP MySQL 协议,需确保网络可达且 FE 开放 8030/9030 端口;
  • 若 Doris 启用 LDAP/Kerberos,需额外配置 connector 的认证参数(目前社区版 Doris 暂不支持 Kerberos for MySQL protocol,建议用 IP 白名单 + 强密码)。

3. AI 能力协同:CMP 提供数据,Doris 提供 AI 推理

步骤 CMP 角色 Doris 4.0 角色
1. 数据采集 Flume / Sqoop / Kafka → HDFS/Hive ---
2. 批处理清洗 Spark SQL / Data Engineering Jobs ---
3. 实时特征生成 Flink → Kafka ---
4. AI 增强分析 提供原始文本/ 向量数据 执行 LLM_* 函数 + 向量检索
5. 结果输出 --- Doris 表 → Superset/Tableau/应用

✅ 典型场景:

  • CMP 中存储千万级用户评论(Hive 表);
  • Doris 通过 Hive Catalog 直接访问,并批量执行:

Sql:

SELECT

id,

LLM_CLASSIFY(comment, '["投诉", "咨询", "表扬"]') AS category,

LLM_SENTIMENT(comment) AS sentiment,

LLM_SUMMARIZE(comment) AS summary

FROM CMP_hive_krb.default.user_comments;

  • 结果可写回 Doris 表,供 BI 实时看板使用。

4. 向量数据融合(高级场景)

若 CMP 中已有 Embedding 向量(如通过 Spark MLlib 或自定义 UDF 生成):

  • 将向量列(ARRAY<FLOAT>)写入 Hive ORC/Parquet 表;
  • Doris 通过 Hive Catalog 读取该表;
  • 在 Doris 中创建 Duplicate Key 表 + 向量索引,实现高效 ANN 检索。

⚠️ 注意:Hive 不原生支持 ARRAY<FLOAT> 的高效向量操作,建议在 Spark 中预处理后写入 Doris 明细表以获得最佳性能。


三、安全与运维对齐(Kerberos 环境)

CMP Base 7.3.1 + Kerberos 环境下部署 Doris 4.0:

组件 配置要点
操作系统 RHEL/CentOS 7/8,与 CMP 节点一致
Kerberos 客户端 安装 krb5-workstation,复制 /etc/krb5.conf
Doris 主体 创建 doris/hostname@REALM,生成 keytab
Hive 访问 在 CREATE CATALOG 中指定 principal 和 keytab 路径
网络策略 开放 CMP ↔ Doris 节点间的 8030(FE)、9060(BE)、9020(BE RPC)等端口

四、为什么不推荐将 Doris 打包为 CMP Parcel

尽管技术上可手动制作 .parcel 包(见社区实验方案),但存在严重问题:

  • ❌ Doris 4.0 的 LLM 函数依赖外部 HTTP 服务,CM 无法管理其生命周期;
  • ❌ 向量索引需要特定 JVM 参数和内存配置,与 CDH/CMP 默认环境冲突;
  • ❌ 无官方支持,升级维护困难;
  • ❌ CMP Public Cloud 完全禁止自定义 Parcel。

推荐做法:独立部署 Doris,通过标准协议(JDBC/HTTP/Hive)与 CMP 交互。


五、总结:融合价值

能力 CMP 7 Doris 4.0 融合后价值
数据湖存储 ✅ HDFS/S3 统一可信数据源
批流计算 ✅ Spark/Flink 复杂 ETL 与特征工程
实时分析 ⚠️ Impala/Kudu 延迟高 ✅ MPP + 列存 亚秒级响应
AI 原生能力 ❌ 需外接 Python/MLflow ✅ LLM 函数 + 向量索引 SQL 内完成智能分析
安全治理 ✅ Ranger/Kerberos/Atlas ⚠️ 基础 RBAC 元数据血缘贯通(需手动映射)

🎯 最终目标
CMP 做" 数据底座" ,Doris 4.0 做"AI 分析引擎",二者通过开放协议协同,构建企业级智能数据平台。