OpenMLDB荣登ACM旗舰期刊

日前,最新一期的ACM(国际计算机学会)旗舰期刊《Communications of the ACM》(ACM 通讯) 刊登了开源机器学习数据库项目 OpenMLDB 的文章,获得了期刊编辑主席团的一致认可。

文章链接:cacm.acm.org/magazines/2...

《Communications of the ACM》被誉为计算机界的Nature,主要刊登面向全世界计算机领域具有深刻影响力的学术或工业界成果,以刊载研究论文、评论、实例分析文章、应用指南、技术通讯及学术动态等内容为主,是计算机专业最有影响力的技术期刊之一。

新南威尔士大学教授Flora Salim、日本国立情报学研究所教授 Ken-ichi Kawarabayashi、新加坡国立大学计算机学院副院长及教授、2020 ACM 杰出科学家 Dr. Bingsheng He 等多位期刊编辑主席,均对 OpenMLDB 在推动人工智能在企业级应用中落地所做的贡献给予了肯定。其中,Dr. Bingsheng He 将其视为"a very efficient feature engineering tool to help AI task(面向AI任务的高效特征工程工具)。"

此次刊登OpenMLDB的文章名为"Principles and Practices of Real-Time Feature Computing Platforms for ML",该文章从业务挑战、设计原理、核心特性、最佳实践等方面对面向机器学习的实时特征计算平台 OpenMLDB 展开介绍。

以下为摘录的部分内容:

在机器学习的很多应用场景中,为了获得高业务价值的模型,对于实时特征有很强的需求,比如实时的个性化推荐、风控、反欺诈等。但是,由数据科学家所构建的特征计算脚本(一般基于Python、SparkSQL 开发),由于无法满足低延迟、高吞吐、高可用等生产级特性,因此无法直接上线。为了在生产环境中上线特征脚本用于模型推理,并且满足实时计算的性能要求,往往需要工程化团队(使用高性能数据库、C++ 等)进行代码重构和优化。那么,由于两个团队、两套系统参与了从离线开发到部署上线的全流程,线上线下一致性校验成为一个必不可少的步骤,其往往需要耗费大量的沟通成本、开发成本和测试成本。

为解决这一问题,OpenMLDB依托 SQL 开发能力,面向开发即上线的优化目标以及实时计算的高性能进行设计,为企业级机器学习应用提供线上线下计算一致、高性能低门槛的生产级特征平台。

如图1 所示,在传统流程中,为了上线一个实时特征服务,首先科学家进行离线特征脚本开发,然后由工程化团队重构为符合线上生产需求的实时服务,还需要由科学家和工程化团队进行线上线下一致性校验,整个流程可能耗费数月人天成本。基于 OpenMLDB,数据科学家使用 SQL 语言定义特征,通过一致性执行计划生成器在程序内部保证线上和线下的一致性,并且通过实时 SQL 引擎保证线上服务的低延迟、高吞吐、高可用。因此,数据科学家使用 SQL 做离线特征开发,当验证满足业务需求后,仅需通过命令一键部署到线上服务,实现开发即上线,带来数月人天成本的节省。

图1 面向开发即上线目标设计的 OpenMLDB 抽象架构

目前,OpenMLDB已在Akulaku、唯品会等社区企业用户中广泛使用。其中:

  • Akulaku(出海互联网金融公司 ) :将 OpenMLDB 应用于其金融科技类场景中,不仅提升团队约一倍人效、节约数百万成本,同时 OpenMLDB 也是相比 Spark、Flink 及其他 MPP 选型中唯一具备线性 scale 能力的方案。
  • 唯品会(中国头部品牌特卖电商) :将 OpenMLDB 应用于其海外业务的商品及品牌个性化推荐场景,带来 10毫秒以内的推荐延时以及特征开发迭代速度60%的提升。

OpenMLDB官网 openmldb.ai/

OpenMLDB GitHub主页 github.com/4paradigm/O...

OpenMLDB文档 openmldb.ai/docs/zh/

相关推荐
一RTOS一8 分钟前
东土科技连投三家核心企业 发力具身机器人领域
人工智能·科技·机器人·具身智能·鸿道实时操作系统·国产嵌入式操作系统选型
ACP广源盛139246256732 小时前
(ACP广源盛)GSV1175---- MIPI/LVDS 转 Type-C/DisplayPort 1.2 转换器产品说明及功能分享
人工智能·音视频
胡耀超2 小时前
隐私计算技术全景:从联邦学习到可信执行环境的实战指南—数据安全——隐私计算 联邦学习 多方安全计算 可信执行环境 差分隐私
人工智能·安全·数据安全·tee·联邦学习·差分隐私·隐私计算
nongcunqq3 小时前
abap 操作 excel
java·数据库·excel
rain bye bye3 小时前
calibre LVS 跑不起来 就将setup 的LVS Option connect下的 connect all nets by name 打开。
服务器·数据库·lvs
停停的茶3 小时前
深度学习(目标检测)
人工智能·深度学习·目标检测
Y200309164 小时前
基于 CIFAR10 数据集的卷积神经网络(CNN)模型训练与集成学习
人工智能·cnn·集成学习
老兵发新帖4 小时前
主流神经网络快速应用指南
人工智能·深度学习·神经网络
AI量化投资实验室4 小时前
15年122倍,年化43.58%,回撤才20%,Optuna机器学习多目标调参backtrader,附python代码
人工智能·python·机器学习
java_logo4 小时前
vllm-openai Docker 部署手册
运维·人工智能·docker·ai·容器