在国际权威咨询与研究机构 Gartner 发布的重要研究报告《The Logical Feature Store: Data Management for Machine Learning》(《逻辑特征存储:机器学习的数据管理》,下文简称报告)中,OpenMLDB 荣幸作为中国唯一的特征平台代表产品入选该报告。 该报告深刻剖析了当前机器学习应用在实际落地过程中面临的三大难题:全流程效率低、可复用性差、训练环境与生产环境不一致,从而解释了数据库特征平台的迫切必要性。考虑到研发特征平台所涉及的高度复杂性和资源占比的挑战, Gartner 坚信相对于企业自主研发,寻求外部采购尤其是购买集成特征平台的 MLOps 全方位数据库解决方案,是一种更具性价比的选择。在这一方面, OpenMLDB 以其卓越表现成功入选 Gartner 推荐的供应商名单,成为中国唯一入选的集成特征平台的 MLOps 数据库解决方案产品。此报告对渴望拓展机器学习业务规模的企业具有专业指导意义。
OpenMLDB:提供线上线下一致的生产级特征平台,实现每单位成本效能提升500%
Gartner 在其报告中强调了机器学习在实际应用中的挑战,即企业的机器学习团队通常不得不投入大量时间在解决数据问题上,而没有精力专注于实际的模型开发和优化,在这一过程中,还存在大量的特征定义不一致以及频繁的重复返工。 OpenMLDB 的研究也揭示了相似的现象:在人工智能工程实践中,企业的数据和工程化团队往往耗费了整体95%的时间和精力用于数据处理、特征校验等相关工作。
在没有 OpenMLDB 的传统方式下,实时特征计算上线通常需要经历以下三个步骤:(1)数据科学家离线使用SparkSQL 或 Python 开发特征脚本;(2)由于开发的离线脚本无法满足生产环境的需求,工程化团队需要将其基于不同的工具栈重新优化;(3)最后,需要对数据科学家开发的离线特征脚本和工程化团队开发的线上服务进行计算逻辑的一致性校验。整个过程涉及两组开发人员、两套工具栈,带来高昂的落地成本。 OpenMLDB 的目标是开发即上线,让数据科学家开发的特征脚本能够在生产环境直接上线。平台具备离线和在线两套处理引擎,其中在线引擎经过深度优化,既满足线上生产级需求,也通过一致性执行计划生成器自动保证线上线下一致性。使用 OpenMLDB ,机器学习应用在特征环节的落地仅包含以下两个步骤:(1)数据科学家使用 SQL 开发离线特征脚本;(2)通过一条部署命令,即可将特征脚本部署到线上引擎。这样在保证线上线下一致性的同时,成功实现毫秒级低延迟、高并发、高可用的线上服务。 因此, OpenMLDB 的最大价值是显著降低人工智能的工程化落地成本。对一个较大的业务场景, OpenMLDB 可以通过省去工程化团队的在线服务开发和线上线下一致性校验,将传统方式原有的6人月降低到1人月,实现每单位成本效能提升500%。
OpenMLDB X Akulaku:通过场景驱动,对 10 亿条订单进行窗口特征计算,成功实现4 毫秒延迟性能,节约资源保守估计400万以上
OpenMLDB 致力于解决 AI 工程化落地的数据治理难题,并且已经在上百个企业级人工智能场景中得到落地。其中 Akulaku 作为东南亚领先的互联网金融服务商,服务内容涵盖了电商全链路,应用场景包含金融风控、智能客服及电商推荐等。在以上众多场景中, Akulaku 都需要落地相应的 AI 应用。而对于电商金融这一领域,其往往对于特征计算环节有着极高的要求,要求线上部署具有低延时与高时效性,能尽可能反映新数据的实时特征计算,线下需求分析具有高吞吐量,与此同时还要保证线上线下的一致性。而在实际场景中,同时满足这三点并不容易。
对于这个难题, OpenMLDB 协助 Akulaku 针对性地构建了一套智能计算架构,将 OpenMLDB 的在线引擎嵌入模型计算层,离线引擎嵌入特征计算层,并通过场景驱动,在业务调用环节调用实时计算结果,成功对10亿条订单进行窗口特征计算,实现4毫秒延迟性能,节约资源保守估计400万以上。 除此之外, OpenMLDB 还帮助更多企业优化了其数据库架构,实现更好的 AI 场景落地。比如帮助唯品会将商品个性化推荐场景的特征开发迭代速度从5人天降低到2人天,带来特征开发迭代速度60%的提升。某头部银行反欺诈系统在离线开发、线上推理、自学习阶段都使用了 OpenMLDB 进行特征计算和管理,解决了困扰其已久的数据穿越、结果不一致问题,省去了昂贵的一致性校验成本。华为将 OpenMLDB 用于实时商品个性化推荐场景后,实现数据分钟级更新,小时级特征上线。未来, OpenMLDB 希望能帮助更多的企业解决数据及特征处理上的真实业务落地问题。
作为中国唯一入选 Gartner《The Logical Feature Store: Data Management for Machine Learning》报告的数据库特征平台代表产品, OpenMLDB 之后将持续打磨产品、优化性能,继续发挥自身在数据库特征平台领域的优势,力求将 AI 工作者们的时间从繁琐低效的数据处理中释放出来,助力企业实现更简单高效的机器学习应用落地。
相关阅读
- OpenMLDB 官网:openmldb.ai/OpenMLDB
- OpenMLDB GitHub 主页 github.com/4paradigm/O...
- OpenMLDB 文档 openmldb.ai/docs/zh/
- 微信交流群