数据驱动下的泛互行业创新与变革,及数据库的新机遇

本文摘自 《OceanBase社区版在泛互场景的应用案例研究》电子书,感兴趣的朋友欢迎打开链接观看。

首先为大家推荐这个 OceanBase 开源负责人老纪的公众号 "老纪的技术唠嗑局",会持续更新和 #数据库 、#AI#技术架构 相关的各种技术内容。欢迎感兴趣的朋友们关注!

作者:刘华阳,现任泛互行业SaaS领域企业的数据库架构师。拥有20年数据库相关工作经验:从传统行业到泛互行业,涉及大型国企,知名股份制企业,外资金融企业等;从实体数据库到云原生数据库,擅长综合分析具体业务及其他因素选择数据库产品,降低公司整体数据库应用成本。

引言

近年来,互联网行业正在经历前所未有的变革,俯视互联网行业的发展轨迹会发现,随着云计算、IoT、AI等技术的逐渐成熟与应用,互联网行业已不再局限于电子商务、数字支付等基于技术的线上服务和产品,而是加速与实体经济、线下产品及客户体验深度融合,形成范围更广的泛互联网行业(以下简称泛互行业),创造出万物互联的新业态。

在万物互联的新业态中,市场需求与以往相比更具多样化、个性化、智能化等特性,这对于应用底层的数据存储与管理设施------数据库管理系统(以下简称"数据库")提出了更高的要求,如稳定性、扩展性、实时处理能力等。 数据库之于泛互行业,相当于煤水电之于日常生活,保障最基本的业务生命线。当泛互行业的业务与市场需求不断变革时,数据库技术又该如何创新以紧跟时代发展的步伐?本文将探讨在数据驱动下泛互行业的变革,以及变革为数据库带来的新机遇和应对趋势。

一、数据驱动下的泛互行业创新与变革

在大众认知中,"互联网"一词意味着新技术,给人一种 "很烧钱"的印象,且不少需求都不切实际。实则如今的泛互行业越来越"实际",通过与传统行业"喜结连理",很多线下门店利用小程序,直播等技术渠道将客流与服务相结合,通过线上获客与线下体验的方式实现业务运营的良性循环。例如泡泡玛特的线下"潮玩盲盒自动贩卖机",结合了线上"抽盲盒"小程序,打造了一体化的网络零售方式。近年来,这种方式深得市场喜爱,据国家统计局关于2021~2023年网络零售的增长趋势(见图1 )数据显示,2023年全国网上零售额15.4万亿元,同比(下同)增长11.0%。其中,实物商品网上零售额13.0万亿元,增长8.4%,占社会消费品零售总额的比重为27.6%。

图1 2021~ 2023年网络零售的增长趋势

其中,金银珠宝、电子出版物及音像制品、通讯器材增速较快;在线餐饮、在线旅游和在线文娱的网络销售额也增势显著。这些数据表明,泛互行业正在以迅雷不及掩耳之势发展。

可以预见的是,随着下一代网络基础设施的普及,传输速度更快的网络环境将使数据传输更实时、更高效,大量的实物数据将被上传至网络供线上客户选择。同时,一旦VR、AR技术成熟,不仅能创造虚拟店铺,还可以生成门店平面图、3D导图等,为顾客打造更真实的选品体验与沟通体验。进而推动网络零售的发展,甚至创造新型商业模式。

网络零售本质是十年前大家谈论的"互联网+",即各行各业接入互联网开启线上零售、线上教育等模式。除了网络零售外,泛互行业的业态构成还包括工业与产业界。其变革体现在近几年如火如荼的数字化转型。例如工厂接入数字化平台,将生产设备、生产流程、交付协同、智能管控、经营决策等用一套系统统一管理,通过"数据+模型+应用"的方式,优化企业传统的生产经营和服务模式,实现效率翻倍。

未来,泛互行业中实体与互联网的结合将愈发紧密,并对应用底层的数据库提出更高的要求。下文将详细展开分析泛互行业对数据库新需求,以及为其带来的新机遇。

二、浅析泛互行业为数据库技术带来的新机遇

上文提到,网络基础设施的普及将为泛互行业带来更大规模的数据传输,与此同时,伴随着云计算、AI等技术的发展,将加剧数据存储与处理的挑战。结合企业发展的一贯要求而言,其对数据库的需求离不开四个方面:

  • 成本效益最大化;
  • 效率最大化;
  • 安全合规;
  • 灵活部署。

1.成本效益最大化。

泛互行业的特点是数据规模大,这意味着数据存储成本、硬件成本与运维成本。在企业追求降本增效的当下,要求数据库保证稳定性与性能的同时,具备更低的成本。一些更高效的数据库产品通过简化部署流程、提供自动化运维的工具、兼容多种数据库SQL语法(如MySQL、PostgreSQL、Oracle)来降低开发的学习成本,提高开发效率,在架构方面,通过更成熟的架构设计降低系统复杂度,通过更高效的存储引擎节约存储成本,此外,还有一些开源数据库通过强有力的开源生态支持满足企业的成本效益最大化。

2.效率最大化。

面对海量数据的处理需求,需要数据库具备强大的数据处理能力及秒级分析能力,同时具备高并发与低延迟的保障以应对业务高峰。一些具备HTAP能力的分布式数据库正在被更多企业选择,因为融合的数据处理方式让业务数据处理和分析更有效率,且减少数据传输环境中的数据时效性的损耗和业务为此所做出的妥协。

3.安全合规。

泛互行业中大部分业务涉及用户的隐私数据、企业的重要信息,选择数据库时,企业也会考虑数据库产品在数据加密、访问控制细粒度、数据备份恢复、数据访问的安全过滤等方面的功能,以满足法律法规和行业中的数据安全标准。

4.灵活部署。

泛互行业的企业通常有更快速的业务发展战略,灵活选择云计算和云服务提供商是泛互企业适应行业快速变化的IT策略。在平衡性能与成本情况下,要求数据库可以支持公有云、私有云、混合云及一体机部署方式,灵活适配不同的预算与服务场景,提高业务的灵活性和抗风险能力。

上述需求为数据库带来了新的发展机遇,数据库厂商可通过加强或发展如下几项技术能力以抓住机遇,在行业变革的浪潮中始终处于浪尖。

(一)加强数据的处理能力与分析综合能力

随着泛互行业数据规模的加剧,企业对海量数据的实时数据分析要求和对多种数据格式处理要求的提高,未来数据库系统必须具备HTAP能力及多种数据格式的处理能力。 首先,从技术的角度看传统事务处理系统+数据仓库的双线架构,往往涉及复杂的同步数据链路,如(ETL,CDC)、不同系统之间的数据一致性的维护十分不便,同时存在数据冗余的问题,增加了架构复杂度,系统运维和数据运维的成本较高。因此,数据库需具备 HTAP 能力、已实现事务与分析混合处理的一体化数据平台正受到企业的青睐。

其次,未来数据库不仅要高效处理结构化数据,还需兼容半结构化(如 JSON、XML)与非结构化数据(如图片、音频、视频)。如今,向量和时序数据的处理需求日益突出,为满足这类复杂数据的处理需求,未来的数据库应具有混合存储引擎,通过在一个数据库产品集成不同类型的数据库引擎,来处理不同类型的数据。多模态的索引技术是未来数据库的必要能力,针对不同的数据结构建立对应结构的索引,提供快速的数据检索和处理能力。与此同时,对于视频,音频等大文件的存储,数据库也应为泛互企业提供更多关于存储格式和存储设备的选择。

根据大数据技术标准推进委员会发布的《数据库发展研究报告(2023年)》提出:数据要素时代,数据规模爆发式增长对数据库技术提出了新的挑战,数据库将围绕三个目标持续发展。其中一个目标是助力用户降本增效,通过交易分析一体化支撑多类业务,多模处理一体化实现一库多用,数据湖仓一体化降低存算成本,软硬协同一体化提升系统性能,AI 与数据库融合迸发无限潜力,云计算成为数据库重要驱动力等方面来实现。

因此,数据库厂商加强数据的处理能力与分析综合能力,可从以下4个关键技术能力入手。

  1. HTAP 原生引擎。采用统一存储与计算架构,在同一数据副本上同时支持强一致性事务(OLTP)和实时分析(OLAP),无需额外数据复制或 ETL 流程。
  2. 向量化与内存计算优化。利用向量化执行引擎和内存级别并行处理,实现毫秒级事务响应和高吞吐分析查询,保障混合负载下的稳定性能。
  3. 关系+半结构化多模融合。在同一表结构中原生存储与查询结构化(关系表)、半结构化(JSON、XML)及键值数据,统一 SQL 访问,无缝跨模查询与关联分析。
  4. 时序、向量等扩展模型。内置时序数据和向量数据存储与索引,支持实时写入与检索、相似度搜索及时序聚合分析,实现一库多用的多模数据处理能力。

(二)更严苛的高并发与低延迟事务操作需求

在兼具复杂与实时特性的业务中,数据库系统需要有能力支撑高并发访问(如百万用户在线的访问),同时保证数据的一致性和可用性。在某些特殊场景如金融反欺诈,数据处理延迟意味着高风险,毫秒级响应才是满足要求的关键指标。具体技术能力包括:

  1. 超高并发事务引擎。采用分布式无锁架构和多版本并发控制(MVCC),支持百万级并发写入与读取,水平弹性扩展可线性提升吞吐量。
  2. 低延迟响应。具备实时数据写入、读取和检索的能力,并保证 100 毫秒内主从节点的低延迟反馈,以支持对读写场景响应时间有严格要求的业务场景。
  3. 可调事务隔离与一致性。针对不同的业务提供从读已提交到串行化的多种隔离级别,并可按业务侧重点在强一致性与性能之间动态切换,兼顾数据安全与高效执行的特点,数据读取的一致性可以在单条语句中控制,也可以在事务中进行控制。

(三)提供成本更低的云部署的能力

云计算的发展使越来越多的数据库选择支持云端部署,云原生的架构逐渐成为主流。在大数据技术标准推进委员会发布的《数据库发展研究报告(2023年)》中提到"云被视为数字化转型的高度战略性平台,云计算成为数据库发展的重要驱动力。数据库产品及生态工具上云成为趋势"。可见,越来越多的企业将要求数据库在公有云、私有云和混合云环境下都可以灵活部署。基于此,数据库技术应具备以下三项能力以顺应市场趋势。

  1. 支持多云环境部署与跨云数据一致性。数据库需支持在主流国内、国外公有云以及私有云和混合云环境中的灵活部署,确保跨云数据的一致性,同时实现资源的动态调度和高效管理。
  2. 降低云厂商依赖,优化资源利用率。数据库需减少对特定云厂商硬件或架构的依赖,能够在不同云环境中实现性能的均衡表现,优化资源配置,降低运营成本,提升性价比。
  3. 支持跨地域、跨机房的混合云部署。数据库需支持在不同云厂商之间进行无缝混合部署,能够实现一套数据库产品在多地域、多机房环境下的统一管理,满足全球化业务对跨国家、跨地域部署的需求。

(四)运维聚焦业务,深化智能运维

数据库系统的稳定性和易用性向来被企业尤为看重,降低数据库的开发和运维成本,能够让开发者专注于业务逻辑的实现,而非底层数据库的调整与优化。在泛互行业快速迭代的进程中,应深化智能运维。目前AI在智能运维和系统管理方面的应用较为成熟,但在系统内核的智能化和DB 管理方面还需要不断探索。未来,数据库在运维方面还需做到以下5点。:

  1. 协议兼容与无缝迁移。原生兼容 MySQL、PostgreSQL、Oracle等主流数据库协议,支持在线迁移与协议切换,最大程度降低历史数据迁移风险。
  2. 零门槛操作体验。提供直观的可视化控制台和 SQL IDE,无需深入底层架构知识,即可使开发者和数据分析人员快速上手并高效完成日常运维。
  3. AI 驱动全自动运维。利用机器学习与深度学习技术,实现智能告警、故障自愈与自动索引优化,自适应负载变化,显著提升系统稳定性与处理效率。
  4. 多语言 SDK 与 API。提供 Python、Java、Go、Node.js 等多语言 SDK 和丰富的 RESTful/API 接口,满足各类微服务与应用框架的接入需求。
  5. 可视化运维与监控大屏。集成图形化运维管理平台和实时监控大屏,支持远程管理、指标钻取与自定义告警策略,降低运维门槛并提升故障响应速度

(五)安全合规与数据库安全技术支持

技术的发展会使个人信息保护越来越被重视,目前对于数据分类分级、数据出境管理、数据处理责任划分都已出台新的法律法规。数据库厂商如何落地数据的安全防护,杜绝数据在技术层面被盗取或非法获取,成为必要考虑因素,应对措施包括:

  1. 精细化权限控制。数据库应具备数据隔离功能,支持更细粒度的权限控制和基于角色的访问控制(RBAC),以实现数据分类管理和权限设定,确保数据安全性。
  2. 数据访问审计与日志。为特殊数据访问提供审计功能和日志记录,满足核心敏感数据访问的跟踪和记录要求,增强数据可追溯性。
  3. 地域性数据保护。针对泛互企业的地域差异,支持不同的数据保护模式设定,并内置不同地域的数据保护要求,方便企业进行全球化业务部署,满足合规性需求。
  4. 通过AI技术实现数据异常检测与防护。数据库需集成AI能力,支持对数据访问行为的实时监控和异常检测,能够快速识别潜在的非法访问行为,并通过入侵检测机制立即终止威胁操作,提升数据安全防护能力。

四、结语

在数据驱动下,泛互行业的市场需求日益多元,如何支撑这些需求,为企业增效,是数据库技术的挑战也是机遇。总的来说,数据库必须在数据分析、并发处理、成本控制、易用性,混合云,一体机以及安全合规方面取得更大突破。这不仅为泛互企业的数字化转型提供了坚实的数据支撑,也是数据库实现业务创新、具备竞争优势的关键。只有顺应时代洪流、跟随市场发展,持续进行技术创新与生态协同,数据库才能真正赋能企业在快速变化的市场中实现持续增长,同时增加自身不被淘汰的筹码,实现双赢。

💌

老纪的技术唠嗑局 不仅希望能持续给大家带来有价值的技术分享,也希望能和大家一起为开源社区贡献力量。如果你对 OceanBase 开源社区认可,点亮一颗小星星 ✨ 吧!你的每一个Star,都是我们努力的动力~💕
https://github.com/oceanbase/oceanbase