AI时代数据库如何Ready?TiDB率先给出答案

当ChatGPT横空出世的那一刻,很多行业都为之一震,意识到变革时刻已经到来。

数据库是最早"觉醒"且付之行动的领域之一。业内普遍认为,大模型所呈现出的强大能力,让Data+AI成为数据库领域的大势所趋。大模型与数据的同频共振,不仅会对当前的数据库技术架构带来根源性重构,更有望让数据库市场形成差异化的竞争,带来无限可能。

因此,从今年上半年起,DataBricks等国外数据库厂商均在加码Data+AI,而中国数据库企业也不逞多让,PingCAP、阿里云、华为云等多家企业纷纷出手,快速响应Data+AI的趋势。

正如PingCAP创始人兼CEO 刘奇在最近的 PingCAP 用户峰会 2023 上所言:"AI正在重塑软件行业,数据库需要从架构上更系统地做到 AI ready。当数据库架构做到算算分离、存存分离、存算分离时,非常容易引入AI。"

PingCAP创始人兼CEO 刘奇

Data+AI,数据库差异化的东风

凯文凯利在《未来十二大趋势》中认为,现在我们处于一个数据流动的时代。商业乃数据之商业。归根结底,你在处理的都是数据。

的确,随着数据成为新的核心生产要素,企业的研发、供应链、营销、服务乃至创新均在以数据为基础进行全方位重塑,而AIGC、大模型和通用人工智能技术的不断迭代与演进,则有望带来生产力的飞跃。Data+AI的持续融合,将对数据和数据库带来由表及里的巨变:

首先是数据消费门槛以前所未有的速度下降,人人用数不再是遥不可及的愿景。随着大模型所展现出的强大能力,以及NLP to SQL、Text to SQL取得的极大进步,数据使用的交互革命正在发生,数据的使用、消费不再是数据科学家等专业人员的专属,数据消费门槛大幅降低。

而当人人用数成为现实,意味着数据的整合、查询、分析和应用等操作将会呈现出指数级的增长趋势,这无疑会对数据库产品的架构、性能以及可靠性等带来颠覆性的改变。

另一个显著变化就是,随着数据消费成为企业数字化转型中的一种新常态,数据库自身需要走向服务化,屏蔽复杂技术与操作,借助AI使能让数据的管理、使用和操作需要智能化和自动化,以响应数据消费的新趋势。

"无论技术世界如何变化,稳定性、性能、高可用、易用性与工具生态,永远都是用户对数据库的重要关注点。我们应该走向数据库的服务化,而不是服务化的数据库。"PingCAP创始人兼CTO 黄东旭直言道。

PingCAP创始人兼CTO 黄东旭

笔者认为,Data+AI融合的这股东风,在加速推动数据库产品、架构走向重塑之际,中国数据库企业需要抓住机会实现产品、市场等全方位的突破。众所周知,因为政策红利的出现,中国市场过去几年涌现出一大批数据库相关企业,一方面说明数据库市场的潜力巨大,另一方面也反映出数据库产品同质化严重的情况。在技术变革之际,"偏安一隅"享受政策红利并不是长久之计,唯有在数据库核心架构实现领先,并扎根市场用户需求,方能真正走出数据库产品的差异化之路,进而实现市场的全面突破。

面对Data+AI的浪潮,PingCAP率先给出答案。在PingCAP 2023用户大会上,PingCAP正式推出新一代架构的数据库:TiDB Serverless。刘奇直言:"TiDB Serverless于四年前开始预研,经过四年的打磨正式发布,在架构层面满足AI时代带来的各种数据处理新需求。"

数据库加速走向AI Ready

数据库如何加速走向AI Ready?可以说,云原生是绕不开的话题。

众所周知,随着云计算的广泛普及,大量传统政企行业用户开始上云与用云,以及在AI技术应用的推动下,一个全面云原生化的时代已经来临:从基础设施到应用开始全面走向云原生化。这其中,数据库又是一个重要抓手,数据库从单体到微服务架构再到 Serverless 架构的持续演进,响应了全面云原生化的需求变化。

如果说云原生是数据库走向智能化的基础条件,那么AI则是云原生数据库持续演进的牵引力。就像新能源+智能化在重塑汽车行业一样,云原生和AI也在深刻影响着数据库的架构与产品。

以TiDB Serverless 数据库为例,其实现了复杂事务的自动化处理,大幅简化了应用的开发,用户不必再花费大量时间在数据库各项处理上,从而可以将精力投入到业务创新之中。

据悉, TiDB Serverless采用云原生/多云的设计理念,拥有云原生引擎 CSE(Cloud-native Storage Engine)架构,可以实现无需资源规划、秒级启动、0 元起步、按使用付费、极致弹性的数据库服务;TiDB Serverless的关键组件则采用了全分离设计,不仅具备自动化的资源调度能力,还能够灵活集成AI能力;另外,Chat2Query等新功能大幅降低了数据消费门槛,在数据库与数据消费端形成良好的对接。

"TiDB Serverless适用多重的应用场景,使用极为便捷且能做到高效的成本控制。"刘奇介绍道:"从去年底上线短短几个月时间,TiDB Serverless beta 版就拥有超过1万个活跃集群。"

Gartner预测,到2025年,云原生负载占比将达到95%,未来几年新增云原生应用占比将持续提升。笔者认为,在一个全面云原生的时代,以及AI应用需求的推动下,传统数据库厂商将逐渐失去原有的优势,而生于云、长于云、基于云原生架构的数据库将成为市场的中坚力量。"数据库正在全面融合Serverless、AI等趋势,TiDB Serverless可以和 HTAP、AI 融合,形成三位一体的创新优势。"PingCAP副总裁刘松表示道。

但这并不意味着谁都能很快推出真正的云原生数据库。众所周知,数据库长期以来都是一个工程化程度极高的领域,云原生数据库不仅需要在初期技术路线选择上具有前瞻性,还需要持续和反复打磨产品。毫无疑问,PingCAP在数据库架构的先进性、AI技术的融合等方面走在了业界的最前列,为中国数据库产品率先探索出一条领先之路。

刘奇认为,数据库与AI的结合还有巨大的探索空间,比如工作负载预测、资源智能化配置、数据分析等等,"小模型可能会在数据库很多环节中发挥巨大价值。小模型现在进步非常快,也更加专用和合规,尤其是小模型推理能力的持续进步,将极大推动AI在数据库领域的可用性。"

扎根中国,实现业务与技术价值的双向奔赴

IDC表示,2022年,中国市场所产生的数据库规模达23.3ZB,全球占比达23%,有望在2026年成为全球最大的数据圈。随着数字中国建设的稳步推进,数字经济、产业数字化的加速发展,将持续带来数据规模爆炸性增长和数据应用快速深化,也必然对于数据库的创新提出了更高挑战。

在笔者看来,未来五年是中国数据库产业突围的关键期。随着中国千行百业数字化进程的不断深入,中国市场的业务规模、业务的复杂度以及市场需求将在全球无出其右。例如,中国已经有多家银行等金融机构的App达到月活用户(MAU)亿级规模,金融机构的营销、客服服务、风险控制等业务中大量基于数据和AI技术来实现......种种变化,使得中国数据库市场在经历了宏观政策驱动的因素影响后,未来市场会真正以先进技术驱动为导向。

毫无疑问,PingCAP今年对于市场和产品策略的调整,有望让其更好地深耕中国市场,利用先进技术与架构的数据库产品助力千行百业的数字化转型。

首先,PingCAP形成了更加清晰的市场与产品策略,通过TiDB 企业版、TiDB Cloud、TiDB Serverless三大产品,以及针对中国市场的平凯数据库,来满足不同市场和用户群体对于数据库的使用需求,在市场中的打法更加明确与聚焦。

其次,PingCAP多条产品线均是基于TiDB一个核心内核的基础,不同产品虽然市场定位不同,但均保持了内核的先进性。以面向中国企业用户的平凯数据库为例,在基于TiDB Open Core的基础上,增加了国产化基础套件、企业级安全套件等大量的企业级特性,契合中国企业级市场的各项差异化需求。

最后,PingCAP在国产化生态、交付与服务体系化等方面进行持续的完善,平凯数据库对于国产化生态兼容等投入大量精力,在满足中国企业数字化转型需求的同时,也确保先进的数据库产品能够在本土技术生态体系中得到充分的发挥。

"平凯数据库脱胎于TiDB企业版。TiDB企业版经过五年打磨,过去更多是面向全球用户提供通用性功能,但这对于中国企业级用户还远远不够。平凯数据库的推出,可以为中国企业级用户带来长期的价值。"刘奇最后表示道。

相关推荐
IT古董9 分钟前
【机器学习】机器学习中用到的高等数学知识-8. 图论 (Graph Theory)
人工智能·机器学习·图论
难以触及的高度11 分钟前
mysql中between and怎么用
数据库·mysql
曼城周杰伦18 分钟前
自然语言处理:第六十三章 阿里Qwen2 & 2.5系列
人工智能·阿里云·语言模型·自然语言处理·chatgpt·nlp·gpt-3
Jacky(易小天)25 分钟前
MongoDB比较查询操作符中英对照表及实例详解
数据库·mongodb·typescript·比较操作符
余炜yw1 小时前
【LSTM实战】跨越千年,赋诗成文:用LSTM重现唐诗的韵律与情感
人工智能·rnn·深度学习
Karoku0661 小时前
【企业级分布式系统】ELK优化
运维·服务器·数据库·elk·elasticsearch
莫叫石榴姐1 小时前
数据科学与SQL:组距分组分析 | 区间分布问题
大数据·人工智能·sql·深度学习·算法·机器学习·数据挖掘
如若1232 小时前
利用 `OpenCV` 和 `Matplotlib` 库进行图像读取、颜色空间转换、掩膜创建、颜色替换
人工智能·opencv·matplotlib
YRr YRr2 小时前
深度学习:神经网络中的损失函数的使用
人工智能·深度学习·神经网络
ChaseDreamRunner2 小时前
迁移学习理论与应用
人工智能·机器学习·迁移学习