从 Greenplum 到 Databend,数据仓库的开源新选择

Greenplum 是知名开源数据仓库项目,曾是大数据分析领域的明星产品,在全球范围内尤其是在国内市场上有着重要的地位。今年 6 月, Greenplum 的 GitHub 仓库突然被改为归档模式,访问权限也修改为只读,用户将失去对源代码的访问权,意味着项目重回闭源,这对于依赖开源代码进行定制和优化的企业来说,是一个沉重的打击。此外,闭源还可能导致技术支持和社区活跃度下降,这对于需要持续迭代和优化的数据库产品来说,是一个不小的挑战。

技术依赖与迁移成本: 长期以来,国内许多企业和开发者依赖于 Greenplum 的开源特性。闭源后,这些用户需要寻找替代方案,这不仅增加了迁移成本,也带来了技术适配的挑战。

市场竞争格局变化: Greenplum 的闭源可能会改变国内数据仓库市场的竞争格局。一些依赖 Greenplum 的供应商可能会受到冲击,而那些拥有自主技术栈的供应商则有机会获得更多的市场份额。

生态系统影响: Greenplum 的闭源可能会影响其生态系统的稳定性。开发者和合作伙伴可能会寻找新的平台,这可能会导致生态系统的碎片化。

替代方案

在 Greenplum 闭源背景下,国内数据仓库供应商迎来了重要机遇,特别是以 Databend 为代表的新一代云原生数据仓库方案,拥有高性能、弹性扩缩容和存算分离等特性。对于考虑替代 Greenplum 的用户来说,Databend 是一个值得探索的替代方案。通过利用其开源和云原生等特点,用户可以在更优的成本下获得高效的数据分析和处理能力。

  1. 技术创新驱动

随着 Greenplum 的闭源,国内数据仓库市场对于开源替代方案的需求将进一步加大。Databend 作为云原生、基于 Rust 开发的数据仓库,提供了面向未来的数据存储和分析模式,具备高弹性、高并发、实时分析等优势,能够更好地满足企业对现代化数仓架构的需求。通过加强技术创新,Databend 可以为曾经依赖 Greenplum 的用户,提供更符合新兴技术趋势的数仓产品。

  1. 拥抱云计算和 对象存储

Greenplum 在传统的数据仓库市场有其积累,但其在云原生方面并不占据优势。Databend 在设计时便充分考虑了云计算和对象存储的应用场景,具备云原生的弹性扩展、按需付费和自动化运维等特性,能够更好地与云计算基础设施集成,适应现代企业对大规模、实时数据分析的需求。

  1. 开源生态的壮大

在 Greenplum 关闭开源社区的同时,Databend 通过进一步扩大开源社区,吸引更多开发者、合作伙伴和用户参与进来,构建开放的生态体系。开源生态不仅是产品推广的重要渠道,也是推动技术快速迭代、满足多样化市场需求的有效途径。通过持续在开源社区中的投入,Databend 可以加速技术创新,吸引原本依赖 Greenplum 的用户群体。

从 Greenplum 到 Databend

万全网络科技有限公司是一家专注于 B 端电商物流供应链的公司,曾从 Greenplum 迁移到 Databend,我们可以从万全身上来观察从 Greenplum 到 Databend 的迁移流程以及对企业的具体影响。

万全网络致力于为客户提供全面的供应链解决方案,涵盖从产品采购到最终配送的全程服务。公司的服务包括但不限于:供应链管理,仓储与配送,信息技术支持。

迁移背景

万全网络在构建数据中台架构时,最初选择了 Greenplum 作为大数据应用层数据库,此平台不仅支持数据的采集、清洗、加工,还涵盖了数据对外提供服务的完整链路。数据计算同步和计算引擎都是基于 Spark 构建的,确保了平台的稳定性和高效性。在过去的几年中,它主要使用 Greenplum 作为大数据应用层数据库,该数据库主要用于支撑万全的业务线报表、大屏展示、帆软报表、SFA 运营报表等应用。然而,随着业务的发展, Greenplum 在响应时间、存储效率、物化视图导致的 IO 压力等方面逐渐暴露出局限性。

Greenplum 使用中的挑战

响应时间 延长: 用户反馈高峰时期报表响应时间过长。

存储与性能局限: CRUD 操作限制选择行存储堆表,尽管其事务吞吐能力可与 MySQL 媲美,但在存储效率低、不适合 OLAP 场景、高 IO 开销等方面存在缺陷。

物化视图 导致的 IO 压力: 物化视图 1-5 分钟一次的高频刷新导致大量磁盘 IO 操作,使得服务器的 iowait 指标常年高达 60%,导致查询延迟。

资源分配挑战: 尽管通过资源队列减少了用户间资源竞争,但存算混部的特性限制了对磁盘资源的精确控制,导致整体性能提升有限。

MVCC 机制的存储成本: 频繁更新的行由于 MVCC 机制而存储多个副本,增加存储空间需求,提高存储成本,影响查询性能。 为了保持数据库的查询性能稳定,需要定期运行维护任务,通常是根据更新频率间隔几个小时执行一次 VACUUM 操作,但是通常 VACUUM 只会对增量部分数据进行快照合并,无法完全释放表空间膨胀,还需要在每个月选择一天进行分批对表执行 full VACUUM 操作,以维持表查询性能稳定。在当前硬件资源有限的条件下,即便是进行节点扩容,也并不会带来更多的收益,而且还需要对数据进行重新分布,从收益和成本上都不是最佳选择。

万全网络期望一个既有数据湖特性、又能够高效查询的数据库,而 Databend 刚好契合需求。 在这次迁移中,万全网络选择了 Databend 数据库,经过一系列的规划、准备、 **兼容性**评估等工作,成功将业务从 Greenplum 迁移到 Databend。 这次迁移不仅减少了资源占用,提升了性能,也为未来的业务发展提供了更强大的支持。

规划和准备

万全网络在迁移过程中坚持了复用现有资源、优化现有数据架构、降低维护成本和提升架构伸缩性等原则。通过这些原则,万全网络成功将业务从 Greenplum 迁移到 Databend,不仅减少了资源占用,提升了性能,也为其未来的业务发展提供了更强大的支持。

准备工作

一开始,万全网络也是抱着"试一试"的态度试用 Databend。 但在经过实际测试和应用后,Databend 的表现远超预期,其性能并不逊色于传统的存算混合架构。 这不仅证实了万全网络选择的正确性,而且凸显了 Databend 在大数据存储领域的出色性能。

特别值得一提的是,Databend 的读写分离机制。这一机制与云原生概念紧密相连,同时符合当前数据湖发展的趋势。通过实现读写分离,万全网络成功提高了读取性能的同时降低了写入的压力。

在使用 Greenplum 时,尽管万全网络实施了资源分组和队列限制策略,但这些措施并未能有效解决资源争抢问题。为了更有效地应对此挑战,万全网络决定充分发挥 Databend 的多租户特性,将不同业务线的流量进行分割,确保每个业务线都能享有更优越的性能体验。此外,多租户机制还提供了更为灵活的权限管理方式。

增效

将 Databend 数据库部署在 Kubernetes(k8s)上,采用云原生的部署方式。 这一战略选择为万全网络的系统带来了显著优势,特别是在动态扩缩容方面。 利用 Kubernetes 的高级特性,有效缓解了流量高峰期的压力,同时降低了系统维护成本。

在数据仓库开发方面,万全网络通过降低表间依赖,显著提高了数据维护的效率。此外还实现了数据载入层的平滑迁移,优化了离线 T+1 数据的导入流程。值得注意的是,在实时数据处理上,万全网络从实时数据导入切换为微批次导入,虽然牺牲了部分时效性,但导入性能却得到了数倍的提升,极大地增强了开发团队的工作效率。

优化

在数据库迁移过程中,万全网络不仅迁移了数据库,还对原有数据架构进行了深入优化。一个关键的优化是解决了之前在Greenplum 中使用大量视图和物化视图构建准实时报表所带来的问题。

在 Greenplum 系统中,万全网络依赖视图和物化视图来构建准实时报表,这在表结构变化时导致了维护的复杂性和服务中断。 **而在 Databend 迁移后,利用其作为数据湖的能力,保存多个数据版本,采用 insert overwrite 方法配合调度平台,实现了数据的****高可用性**和稳定访问。 这一策略不仅打破了物化视图间的依赖关系,还使万全网络能够灵活应对表结构变更,最小化对用户的影响。

这种优化策略极大提高了万全网络对外服务的稳定性和连续性,同时降低了维护的复杂性。新架构的灵活性能够更有效地应对数据变更,进一步增强了系统的可维护性和可扩展性。

迁移过程

在当前快速发展的数据管理领域,有效的数据库迁移策略对保持技术先进性和业务竞争力至关重要。

在迁移的初期,万全网络明确了四项核心原则:复用现有资源、优化现有数据架构、降低维护成本,以及提升架构伸缩性。这些原则确保迁移策略既高效又可控。

经过详细的需求分析和目标设定,万全网络对 Databend 进行了深入评估,包括性能测试和压力测试,以确保其适应性和稳定性。这一阶段的成功为后续的迁移提供了坚实的基础。

数据库架构优化

新一代云原生数仓 Databend 采用了存算分离的设计理念,提高了系统的灵活性、扩展性,并优化了多租户环境下的读写分离策略,大大提升了性能、安全性和稳定性。

迁移过程的集成与优化

在数据同步方面,万全网络采用了 Flink 和 Spark 处理引擎,以应对实时与离线数据同步的需求。 万全网络优化了数据同步的流程和稳定性,并调整了任务调度策略,提高了数据同步的效率和稳定性。

查询优化和性能提升

万全网络重点优化了查询条件,采用了计算落地策略和 query cache 功能,以应对大量数据查询和数据倾斜问题。 这些措施显著提升了查询性能和响应时间。

测试与回退策略

在测试阶段,万全网络采用了分流策略,重点关注性能回归排查和优化,确保系统的稳定性和可靠性。 万全网络还制定了灵活的回退策略,以应对可能出现的系统性能问题。

迁移中的挑战与解决方案

在迁移过程中,万全网络面临并克服了多个技术挑战,包括系统表查询优化、查询节点内存问题、存储错误和 nginx 代理问题等。

迁移成果与指标

迁移完成后,万全网络在多个方面取得了显著成果:

  • 查询性能: 提升显著,用户可以更快速地获取数据;
  • 数据导入/导出速度: 销等方面存在缺陷。 显著提高,支持更高效的数据更新;
  • 存 储效率: 优化后的系统在存储资源利用上更加高效;
  • 用户体验: 由于性能的提升,用户体验得到了显著改善;
  • 成本效益: 维护时间成本降低,系统资源利用率提升 。

总结

万全网络的迁移过程包括了数据库架构优化、迁移过程的集成与优化、查询优化和性能提升、测试与回退策略以及迁移中的挑战与解决方案。迁移完成后,万全网络在查询性能、数据导入/导出速度、存储效率、用户体验和成本效益等方面取得了显著成果。

万全网络团队在 4 个月中,成功完成了整个业务系统的迁移工作,涵盖了 4 个业务线,共计近 500 张表和 600 个任务的迁移任务。万全网络的案例表明,Greenplum 的闭源虽然带来了挑战,但也为 Databend 等新兴数仓供应商提供了机遇。通过成功的迁移,万全网络不仅提升了技术,也加强了团队协作,为未来的业务发展奠定了坚实的基础。

Greenplum 的闭源为国内数据仓库领域带来了变革契机。尽管其历史积淀和技术成熟度为行业树立了标杆,但在云计算和大数据时代,开源、云原生和实时分析的需求日益强烈。国内数据仓库供应商,如 Databend,能够凭借其灵活的架构和技术优势,帮助用户完成架构演进。

相关推荐
JessieZeng aaa2 小时前
CSV文件数据导入hive
数据仓库·hive·hadoop
lsjweiyi4 小时前
极简AI工具箱网站开源啦!
opencv·开源·微信支付·支付宝支付·百度ai·极简ai工具箱·ai图像处理
开源社5 小时前
一场开源视角的AI会议即将在南京举办
人工智能·开源
FreeIPCC5 小时前
谈一下开源生态对 AI人工智能大模型的促进作用
大数据·人工智能·机器人·开源
海害嗨5 小时前
阿里巴巴官方「SpringCloudAlibaba全彩学习手册」限时开源!
学习·开源
生命是有光的5 小时前
【开源风云】从若依系列脚手架汲取编程之道(八)
开源
HuggingFace7 小时前
Halo 正式开源: 使用可穿戴设备进行开源健康追踪
开源·健康追踪
Yz98769 小时前
hive复杂数据类型Array & Map & Struct & 炸裂函数explode
大数据·数据库·数据仓库·hive·hadoop·数据库开发·big data
EDG Zmjjkk10 小时前
Hive 函数(实例操作版2)
数据仓库·hive·hadoop
B站计算机毕业设计超人10 小时前
计算机毕业设计SparkStreaming+Kafka新能源汽车推荐系统 汽车数据分析可视化大屏 新能源汽车推荐系统 汽车爬虫 汽车大数据 机器学习
数据仓库·爬虫·python·数据分析·kafka·数据可视化·推荐算法