OpenMLDB荣登ACM旗舰期刊

日前,最新一期的ACM(国际计算机学会)旗舰期刊《Communications of the ACM》(ACM 通讯) 刊登了开源机器学习数据库项目 OpenMLDB 的文章,获得了期刊编辑主席团的一致认可。

文章链接:cacm.acm.org/magazines/2...

《Communications of the ACM》被誉为计算机界的Nature,主要刊登面向全世界计算机领域具有深刻影响力的学术或工业界成果,以刊载研究论文、评论、实例分析文章、应用指南、技术通讯及学术动态等内容为主,是计算机专业最有影响力的技术期刊之一。

新南威尔士大学教授Flora Salim、日本国立情报学研究所教授 Ken-ichi Kawarabayashi、新加坡国立大学计算机学院副院长及教授、2020 ACM 杰出科学家 Dr. Bingsheng He 等多位期刊编辑主席,均对 OpenMLDB 在推动人工智能在企业级应用中落地所做的贡献给予了肯定。其中,Dr. Bingsheng He 将其视为"a very efficient feature engineering tool to help AI task(面向AI任务的高效特征工程工具)。"

此次刊登OpenMLDB的文章名为"Principles and Practices of Real-Time Feature Computing Platforms for ML",该文章从业务挑战、设计原理、核心特性、最佳实践等方面对面向机器学习的实时特征计算平台 OpenMLDB 展开介绍。

以下为摘录的部分内容:

在机器学习的很多应用场景中,为了获得高业务价值的模型,对于实时特征有很强的需求,比如实时的个性化推荐、风控、反欺诈等。但是,由数据科学家所构建的特征计算脚本(一般基于Python、SparkSQL 开发),由于无法满足低延迟、高吞吐、高可用等生产级特性,因此无法直接上线。为了在生产环境中上线特征脚本用于模型推理,并且满足实时计算的性能要求,往往需要工程化团队(使用高性能数据库、C++ 等)进行代码重构和优化。那么,由于两个团队、两套系统参与了从离线开发到部署上线的全流程,线上线下一致性校验成为一个必不可少的步骤,其往往需要耗费大量的沟通成本、开发成本和测试成本。

为解决这一问题,OpenMLDB依托 SQL 开发能力,面向开发即上线的优化目标以及实时计算的高性能进行设计,为企业级机器学习应用提供线上线下计算一致、高性能低门槛的生产级特征平台。

如图1 所示,在传统流程中,为了上线一个实时特征服务,首先科学家进行离线特征脚本开发,然后由工程化团队重构为符合线上生产需求的实时服务,还需要由科学家和工程化团队进行线上线下一致性校验,整个流程可能耗费数月人天成本。基于 OpenMLDB,数据科学家使用 SQL 语言定义特征,通过一致性执行计划生成器在程序内部保证线上和线下的一致性,并且通过实时 SQL 引擎保证线上服务的低延迟、高吞吐、高可用。因此,数据科学家使用 SQL 做离线特征开发,当验证满足业务需求后,仅需通过命令一键部署到线上服务,实现开发即上线,带来数月人天成本的节省。

图1 面向开发即上线目标设计的 OpenMLDB 抽象架构

目前,OpenMLDB已在Akulaku、唯品会等社区企业用户中广泛使用。其中:

  • Akulaku(出海互联网金融公司 ) :将 OpenMLDB 应用于其金融科技类场景中,不仅提升团队约一倍人效、节约数百万成本,同时 OpenMLDB 也是相比 Spark、Flink 及其他 MPP 选型中唯一具备线性 scale 能力的方案。
  • 唯品会(中国头部品牌特卖电商) :将 OpenMLDB 应用于其海外业务的商品及品牌个性化推荐场景,带来 10毫秒以内的推荐延时以及特征开发迭代速度60%的提升。

OpenMLDB官网 openmldb.ai/

OpenMLDB GitHub主页 github.com/4paradigm/O...

OpenMLDB文档 openmldb.ai/docs/zh/

相关推荐
葫三生1 小时前
如何评价《论三生原理》在科技界的地位?
人工智能·算法·机器学习·数学建模·量子计算
m0_751336392 小时前
突破性进展:超短等离子体脉冲实现单电子量子干涉,为飞行量子比特奠定基础
人工智能·深度学习·量子计算·材料科学·光子器件·光子学·无线电电子
美狐美颜sdk5 小时前
跨平台直播美颜SDK集成实录:Android/iOS如何适配贴纸功能
android·人工智能·ios·架构·音视频·美颜sdk·第三方美颜sdk
DeepSeek-大模型系统教程5 小时前
推荐 7 个本周 yyds 的 GitHub 项目。
人工智能·ai·语言模型·大模型·github·ai大模型·大模型学习
晋阳十二夜5 小时前
【压力测试之_Jmeter链接Oracle数据库链接】
数据库·oracle·压力测试
郭庆汝5 小时前
pytorch、torchvision与python版本对应关系
人工智能·pytorch·python
IT古董5 小时前
【第二章:机器学习与神经网络概述】03.类算法理论与实践-(3)决策树分类器
神经网络·算法·机器学习
GDAL7 小时前
Node.js v22.5+ 官方 SQLite 模块全解析:从入门到实战
数据库·sqlite·node.js
小雷FansUnion7 小时前
深入理解MCP架构:智能服务编排、上下文管理与动态路由实战
人工智能·架构·大模型·mcp
资讯分享周7 小时前
扣子空间PPT生产力升级:AI智能生成与多模态创作新时代
人工智能·powerpoint