渣打银行——新的CDP架构：easyDP项目

Gent_倪2026-04-01 9:34

easyDP项目是EDMpCN从HDP迁移到CDP时，用来取代旧的etl-jobs的项目，主要用于ETL脚本开发和自动化解决方案交付。自25年之后启用。

前言：为什么从HDP迁移到CDP

HDP2.6.5（Hadoop‌: ‌2.7.3‌，spark 2.3）--> CDP 7.3 （Hadoop‌: ‌3.1.1‌，Spark‌: ‌2.4.7‌同时集成 Spark 3.1.1）

Spark版本从2.3升级到2.4

2.4版本内置了30+个高阶函数UDF，对复杂类型（数组、结构体）的 SQL 操作更灵活，比如新增了array_distinct(数组去重)、array_except(数组差集)、array_intersect(数组交集)、array_union(数组并集)、array_sort(数组排序，注意在2.4版本默认是按照第一个字段进行升序排序的，在spark3.1才支持自定义排序)

3. 核心组件详解

3.1 调度和编排层

EasyDP: 主要的ETL作业调度和编排平台
Control-M: 传统批处理作业调度器
轮询节点: 用于监控和触发作业执行

3.2 数据处理引擎

Spark : 主要的分布式计算引擎 (版本2.4.7)
- 支持Scala和PySpark开发
- 动态资源分配
- 内存计算优化
Hive: 数据仓库查询引擎 (版本3.1.3)
Impala: 高性能分析查询引擎

3.3 存储架构

HDFS: 分布式文件系统 (140TB容量)
Isilon: 企业级存储解决方案
PostgreSQL: 元数据和应用数据存储
HBase: NoSQL数据库

3.4 数据传输组件

Charon : 文件传输服务
- 支持MinIO和LocalCFT两种传输方式
- 集成Solace消息通知
- 支持多种文件传输场景
Carrot : 数据分发组件
- 支持数据质量检查
- 行数校验和控制文件生成