OpenMLDB荣登ACM旗舰期刊

日前,最新一期的ACM(国际计算机学会)旗舰期刊《Communications of the ACM》(ACM 通讯) 刊登了开源机器学习数据库项目 OpenMLDB 的文章,获得了期刊编辑主席团的一致认可。

文章链接:cacm.acm.org/magazines/2...

《Communications of the ACM》被誉为计算机界的Nature,主要刊登面向全世界计算机领域具有深刻影响力的学术或工业界成果,以刊载研究论文、评论、实例分析文章、应用指南、技术通讯及学术动态等内容为主,是计算机专业最有影响力的技术期刊之一。

新南威尔士大学教授Flora Salim、日本国立情报学研究所教授 Ken-ichi Kawarabayashi、新加坡国立大学计算机学院副院长及教授、2020 ACM 杰出科学家 Dr. Bingsheng He 等多位期刊编辑主席,均对 OpenMLDB 在推动人工智能在企业级应用中落地所做的贡献给予了肯定。其中,Dr. Bingsheng He 将其视为"a very efficient feature engineering tool to help AI task(面向AI任务的高效特征工程工具)。"

此次刊登OpenMLDB的文章名为"Principles and Practices of Real-Time Feature Computing Platforms for ML",该文章从业务挑战、设计原理、核心特性、最佳实践等方面对面向机器学习的实时特征计算平台 OpenMLDB 展开介绍。

以下为摘录的部分内容:

在机器学习的很多应用场景中,为了获得高业务价值的模型,对于实时特征有很强的需求,比如实时的个性化推荐、风控、反欺诈等。但是,由数据科学家所构建的特征计算脚本(一般基于Python、SparkSQL 开发),由于无法满足低延迟、高吞吐、高可用等生产级特性,因此无法直接上线。为了在生产环境中上线特征脚本用于模型推理,并且满足实时计算的性能要求,往往需要工程化团队(使用高性能数据库、C++ 等)进行代码重构和优化。那么,由于两个团队、两套系统参与了从离线开发到部署上线的全流程,线上线下一致性校验成为一个必不可少的步骤,其往往需要耗费大量的沟通成本、开发成本和测试成本。

为解决这一问题,OpenMLDB依托 SQL 开发能力,面向开发即上线的优化目标以及实时计算的高性能进行设计,为企业级机器学习应用提供线上线下计算一致、高性能低门槛的生产级特征平台。

如图1 所示,在传统流程中,为了上线一个实时特征服务,首先科学家进行离线特征脚本开发,然后由工程化团队重构为符合线上生产需求的实时服务,还需要由科学家和工程化团队进行线上线下一致性校验,整个流程可能耗费数月人天成本。基于 OpenMLDB,数据科学家使用 SQL 语言定义特征,通过一致性执行计划生成器在程序内部保证线上和线下的一致性,并且通过实时 SQL 引擎保证线上服务的低延迟、高吞吐、高可用。因此,数据科学家使用 SQL 做离线特征开发,当验证满足业务需求后,仅需通过命令一键部署到线上服务,实现开发即上线,带来数月人天成本的节省。

图1 面向开发即上线目标设计的 OpenMLDB 抽象架构

目前,OpenMLDB已在Akulaku、唯品会等社区企业用户中广泛使用。其中:

  • Akulaku(出海互联网金融公司 ) :将 OpenMLDB 应用于其金融科技类场景中,不仅提升团队约一倍人效、节约数百万成本,同时 OpenMLDB 也是相比 Spark、Flink 及其他 MPP 选型中唯一具备线性 scale 能力的方案。
  • 唯品会(中国头部品牌特卖电商) :将 OpenMLDB 应用于其海外业务的商品及品牌个性化推荐场景,带来 10毫秒以内的推荐延时以及特征开发迭代速度60%的提升。

OpenMLDB官网 openmldb.ai/

OpenMLDB GitHub主页 github.com/4paradigm/O...

OpenMLDB文档 openmldb.ai/docs/zh/

相关推荐
薛定猫AI38 分钟前
【深度解析】终端里的免费 AI 编程助手 Freebuff:多代理架构、模型路由与安全使用实战
人工智能·安全·架构
tedcloud1234 小时前
UI-TARS-desktop部署教程:构建AI桌面自动化系统
服务器·前端·人工智能·ui·自动化·github
曦月逸霜7 小时前
啥是RAG 它能干什么?
人工智能·python·机器学习
AI医影跨模态组学7 小时前
Lancet Digit Health(IF=24.1)广东省人民医院刘再毅&南方医科大学南方医院梁莉等团队:基于可解释深度学习模型预测胶质瘤分子改变
人工智能·深度学习·论文·医学·医学影像·影像组学
应用市场7 小时前
AI 编程助手三强争霸(2026 版):Claude、Gemini、GPT 各自擅长什么?
人工智能·gpt
Mahir087 小时前
Redis 与 MySQL 数据同步:一致性保证的完整解决方案
数据库·redis·mysql·缓存·面试·数据一致性
CSND7407 小时前
YOLO resume断点续训(不能用官方的权重,是自己训练一半生成的last.pt)
深度学习·yolo·机器学习
2301_769340677 小时前
如何在 Vuetify 中可靠捕获 Chip 关闭事件(包括键盘触发).txt
jvm·数据库·python
AC赳赳老秦7 小时前
供应链专员提效:OpenClaw自动跟踪物流信息、更新库存数据,异常自动提醒
java·大数据·服务器·数据库·人工智能·自动化·openclaw
脑极体7 小时前
从Token消耗到DAA增长,AI价值标尺正在重构
人工智能·重构