OpenMLDB荣登ACM旗舰期刊

日前,最新一期的ACM(国际计算机学会)旗舰期刊《Communications of the ACM》(ACM 通讯) 刊登了开源机器学习数据库项目 OpenMLDB 的文章,获得了期刊编辑主席团的一致认可。

文章链接:cacm.acm.org/magazines/2...

《Communications of the ACM》被誉为计算机界的Nature,主要刊登面向全世界计算机领域具有深刻影响力的学术或工业界成果,以刊载研究论文、评论、实例分析文章、应用指南、技术通讯及学术动态等内容为主,是计算机专业最有影响力的技术期刊之一。

新南威尔士大学教授Flora Salim、日本国立情报学研究所教授 Ken-ichi Kawarabayashi、新加坡国立大学计算机学院副院长及教授、2020 ACM 杰出科学家 Dr. Bingsheng He 等多位期刊编辑主席,均对 OpenMLDB 在推动人工智能在企业级应用中落地所做的贡献给予了肯定。其中,Dr. Bingsheng He 将其视为"a very efficient feature engineering tool to help AI task(面向AI任务的高效特征工程工具)。"

此次刊登OpenMLDB的文章名为"Principles and Practices of Real-Time Feature Computing Platforms for ML",该文章从业务挑战、设计原理、核心特性、最佳实践等方面对面向机器学习的实时特征计算平台 OpenMLDB 展开介绍。

以下为摘录的部分内容:

在机器学习的很多应用场景中,为了获得高业务价值的模型,对于实时特征有很强的需求,比如实时的个性化推荐、风控、反欺诈等。但是,由数据科学家所构建的特征计算脚本(一般基于Python、SparkSQL 开发),由于无法满足低延迟、高吞吐、高可用等生产级特性,因此无法直接上线。为了在生产环境中上线特征脚本用于模型推理,并且满足实时计算的性能要求,往往需要工程化团队(使用高性能数据库、C++ 等)进行代码重构和优化。那么,由于两个团队、两套系统参与了从离线开发到部署上线的全流程,线上线下一致性校验成为一个必不可少的步骤,其往往需要耗费大量的沟通成本、开发成本和测试成本。

为解决这一问题,OpenMLDB依托 SQL 开发能力,面向开发即上线的优化目标以及实时计算的高性能进行设计,为企业级机器学习应用提供线上线下计算一致、高性能低门槛的生产级特征平台。

如图1 所示,在传统流程中,为了上线一个实时特征服务,首先科学家进行离线特征脚本开发,然后由工程化团队重构为符合线上生产需求的实时服务,还需要由科学家和工程化团队进行线上线下一致性校验,整个流程可能耗费数月人天成本。基于 OpenMLDB,数据科学家使用 SQL 语言定义特征,通过一致性执行计划生成器在程序内部保证线上和线下的一致性,并且通过实时 SQL 引擎保证线上服务的低延迟、高吞吐、高可用。因此,数据科学家使用 SQL 做离线特征开发,当验证满足业务需求后,仅需通过命令一键部署到线上服务,实现开发即上线,带来数月人天成本的节省。

图1 面向开发即上线目标设计的 OpenMLDB 抽象架构

目前,OpenMLDB已在Akulaku、唯品会等社区企业用户中广泛使用。其中:

  • Akulaku(出海互联网金融公司 ) :将 OpenMLDB 应用于其金融科技类场景中,不仅提升团队约一倍人效、节约数百万成本,同时 OpenMLDB 也是相比 Spark、Flink 及其他 MPP 选型中唯一具备线性 scale 能力的方案。
  • 唯品会(中国头部品牌特卖电商) :将 OpenMLDB 应用于其海外业务的商品及品牌个性化推荐场景,带来 10毫秒以内的推荐延时以及特征开发迭代速度60%的提升。

OpenMLDB官网 openmldb.ai/

OpenMLDB GitHub主页 github.com/4paradigm/O...

OpenMLDB文档 openmldb.ai/docs/zh/

相关推荐
未来之窗软件服务13 小时前
幽冥大陆(八十七 ) 水果识别在线检测模型netron —东方仙盟练气期
人工智能·机器学习·ncnn·仙盟创梦ide·东方仙盟
村口曹大爷13 小时前
[特殊字符] 2026年AI最新趋势深度解读:智能体崛起、多模态融合、全球竞速加剧
人工智能·ai
Elastic 中国社区官方博客13 小时前
如何使用 LangChain 和 Elasticsearch 构建 agent 知识库
大数据·人工智能·elasticsearch·搜索引擎·ai·langchain·全文检索
、BeYourself13 小时前
✅ 宝塔 PostgreSQL 安装UUID指南
数据库·postgresql·springai
星云数灵14 小时前
大模型高级工程师考试练习题1
人工智能·大模型·大模型工程师·大模型考试题·大模型工程师练习题·大模型高频考题
草莓熊Lotso14 小时前
Python 进阶核心:字典 / 文件操作 + 上下文管理器实战指南
数据结构·c++·人工智能·经验分享·笔记·git·python
乐迪信息16 小时前
乐迪信息:目标检测算法+AI摄像机:煤矿全场景识别方案
人工智能·物联网·算法·目标检测·目标跟踪·语音识别
学术小白人18 小时前
【EI会议征稿通知】2026年智能感知与自主控制国际学术会议(IPAC 2026)
人工智能·物联网·数据分析·区块链·能源
HyperAI超神经18 小时前
在线教程丨 David Baker 团队开源 RFdiffusion3,实现全原子蛋白质设计的生成式突破
人工智能·深度学习·学习·机器学习·ai·cpu·gpu
ASKED_201921 小时前
End-To-End之于推荐: Meta GRs & HSTU 生成式推荐革命之作
人工智能