渣打银行——新的CDP架构:easyDP项目

easyDP项目是EDMpCN从HDP迁移到CDP时,用来取代旧的etl-jobs的项目,主要用于ETL脚本开发和自动化解决方案交付。自25年之后启用。

前言:为什么从HDP迁移到CDP

HDP2.6.5(Hadoop‌: ‌2.7.3‌,spark 2.3)--> CDP 7.3 (Hadoop‌: ‌3.1.1‌,Spark‌: ‌2.4.7‌同时集成 Spark 3.1.1)

  1. Spark版本从2.3升级到2.4

2.4版本内置了30+个高阶函数UDF,对复杂类型(数组、结构体)的 SQL 操作更灵活 ,比如新增了array_distinct(数组去重)、array_except(数组差集)、array_intersect(数组交集)、array_union(数组并集)、array_sort(数组排序,注意在2.4版本默认是按照第一个字段进行升序排序的,在spark3.1才支持自定义排序)

3. 核心组件详解

3.1 调度和编排层
  • EasyDP: 主要的ETL作业调度和编排平台
  • Control-M: 传统批处理作业调度器
  • 轮询节点: 用于监控和触发作业执行
3.2 数据处理引擎
  • Spark : 主要的分布式计算引擎 (版本2.4.7)
    • 支持Scala和PySpark开发
    • 动态资源分配
    • 内存计算优化
  • Hive: 数据仓库查询引擎 (版本3.1.3)
  • Impala: 高性能分析查询引擎
3.3 存储架构
  • HDFS: 分布式文件系统 (140TB容量)
  • Isilon: 企业级存储解决方案
  • PostgreSQL: 元数据和应用数据存储
  • HBase: NoSQL数据库
3.4 数据传输组件
  • Charon : 文件传输服务
    • 支持MinIO和LocalCFT两种传输方式
    • 集成Solace消息通知
    • 支持多种文件传输场景
  • Carrot : 数据分发组件
    • 支持数据质量检查
    • 行数校验和控制文件生成
相关推荐
xiaohuoji12910 小时前
震荡行情下的自动化交易:从架构视角看高抛低吸工具选型
架构·自动化·区块链
AiTop10010 小时前
跨数据中心的创新:Moonshot AI与清华大学提出PrfaaS架构
人工智能·ai·架构
AI服务老曹10 小时前
深度解析:基于异构计算的 AI 视频管理平台架构实践
人工智能·架构·音视频
2603_9547083111 小时前
多能互补微电网:六大发展趋势,助力新型电力系统多能协同升级
人工智能·物联网·架构·系统架构·能源
Agent产品评测局11 小时前
老旧电力系统没有API接口,Agent能不能在不改造系统的情况下分析巡检数据? —— 2026企业级智能体非侵入式落地实测与架构深度解析
人工智能·ai·chatgpt·架构
鼎道开发者联盟11 小时前
鼎享会 | OpenClaw Control UI 前端架构全解析:自研 UI 对接 Server 实操指南
前端·ui·架构·openclaw·control ui
vivo互联网技术11 小时前
深度解析 vivo 活动系统全球化实践
架构
预知同行12 小时前
RAG 架构设计深度解析:从向量数据库选型到生产级检索系统
后端·架构
ai产品老杨12 小时前
架构解析:基于GB28181/RTSP的AI视频管理平台——支持X86/ARM异构计算、Docker容器化与源码交付
人工智能·架构·音视频
李白客12 小时前
高可用数据库:RTO、RPO与架构选型,一篇讲透
数据库·架构