KaiwuDB CTO 魏可伟:万物互联,探索新一代数据底座

10月28-29日,第八届中国开源年会(COSCon's23)在四川成都高新区菁蓉汇成功举办。作为开源领域的年度盛会,本次以"开源:川流不息、山海相映"为主题,吸引了众多行业学者、技术专家、开源爱好者的共同到场,KaiwuDB CTO 魏可伟受邀于主论坛发表《万物互联,探索新一代数据底座》主题演讲。

AI4DB---从数据中获取"知识",提升数据活力

万物互联时代激发了数据应用的多样可能性,但同时也对数据管理这一课题提出更多诉求。在 IoT 场景下,数据的获取、交换和处理是核心,随着数据量的激增,数据的边际价值下降,为了从这些工业数据中获取价值,AI 与 IoT 的结合显得尤为重要。

在 IoT 领域中,我们通常会把"A"加在前面,形成我们熟悉的 AIoT。究其原因,数据本身并不能为企业带来价值,但当通过不断学习,从数据中获取"知识",数据才具有生命力。更重要的是,万物互联时代所带来的成本和其所产生的收益,无法有效支撑企业形成良性发展,如果缺少 AI 加持,整个行业发展或将受阻。

回归到用户本位,技术背后的关键在于我们能否为用户提供行之有效的解决方案。实际情况中,技术存在很多不可控的问题阻碍用户使用;前期昂贵的基础设施投入,似乎也不是真的在帮用户降低成本。

因此,KaiwuDB 在立足于技术、产品及行业需求的基础上,主张"化繁为简",重视培养"原生 AI "能力,包括:智能生命周****期管理、降采样、智能预计算等功能,帮助企业构建数据获取、数据交换、数据处理分析的全链路能力,为终端用户提供挖掘更多数据价值的解决方案,以满足用户的实际需求。

智能生命周期管理

用以实现存储成本与数据价值之间的需求匹配。以时序数据为例,存储成本随着时间的推移不断加大,因此如何进行数据生命周期的管理至关重要。

其中,压缩是一种常用方法,但是压缩会带来性能上的消耗,因此需要权衡新旧数据的需求,利用 AI 技术对时间较长的数据进行压缩以减小存储空间,近期的数据可以存储在较大的空间中,合理平衡存储成本和数据的价值。

降采样

即减少数据采集频率。面临海量数据的场景,此时可以将高频率的数据采集降低为低频率,以减少存储成本。选取方式可以是随机选择或其他方式,核心目标是在尽可能保留表示趋势和重要信息的同时,减少数据存储量和处理开销。

在数据管理中,为了保留有价值的数据部分,可以利用 AI 技术介入,进行数据特征提取和信息压缩。例如 AI 可以根据应用需求分析数据行为模式,帮助用户选择更优的降采样策略,以保留具有代表性的数据。

智能预计算

即通过分析数据行为和查询模式,提前准备数据并优化聚合操作,从而提升查询性能。以时序数据场景为例,会以时间维度进行数据的聚合分析,这背后的一项关键技术就是智能预计算---即利用 AI 大脑预判用户会对哪些内容会做聚合分析,提前把结果"知识"计算好。

这一能力可快速实现结果反馈,极大程度提升性能;在生命周期管理方面,也可以通过 AI 对用户使用情况做出预判,如果 AI 预判用户对某一类数据不再频繁调用,可以自动挪到冷存储上,降低资源占用。

DB4AI---数据更活跃,用户低负担

在IoT 领域有一些常见的算法,比如常见的时间序列预测、图像识别等,这些都是我们在 AIoT 领域中比较关心的话题;与此同时,我们还需要解决数据库和 AI 两大生态割裂的问题,即如何实现从数据库里的数据产生的模型能够在数据库里用起来,同时避免让数据工程师、数据科学家们觉得有很多额外负担。

为此,KaiwuDB 提供了原生预测分析能力。我们希望提供一个平台,能够实现数据库和算法的紧密结合。比如,支持数据库中的函数调用平台上的模型训练、模型推理等能力。这样从数据库开发人员和管理人员的操作层面来看,他们相当于只在使用我们数据库的一个基本能力,并不会产生额外负担。另一方面,我们也可以为数据科学家开放接口,让他们能够把训练出来的模型,放进数据库中。通过上述方式,可以把各类数据库相关人员紧密联系起来。

此外,我们还提供一项生命周期管理引擎能力---Modelops in Database。举个例子:我们的 AI 模型,它本身是有时效性的。比如,用去年的数据训练出来的模型,今年未必适用。这个时候谁能够第一时间发现这个问题?应该是数据库。因为当我们发现数据分布已经发生明显的变化的时候,可以推测出该模型的性能可能也将处于风险之中,这个也是 KaiwuDB 在做 DB For AI 的关键思路。

写在最后

KaiwuDB 作为一款多模数据库,一个很重要的核心是用一体化的方式 、统一的接口提供给用户数据管理和处理的能力。 "大模型给我们带来一个非常好的机会,让我们真正地去实现一个完全不同的多模数据库" ,魏可伟表示。

就数据库而言,开源和创新一直是密不可分的。回顾整个数据库发展历程,创新至关重要,而开源是引领创新的重要途径。未来,KaiwuDB 将努力为各位伙伴提供更开放智能的数据库解决方案,后续我们也会有开源计划,敬请大家期待!

相关推荐
Ai 编码助手4 小时前
MySQL中distinct与group by之间的性能进行比较
数据库·mysql
陈燚_重生之又为程序员4 小时前
基于梧桐数据库的实时数据分析解决方案
数据库·数据挖掘·数据分析
caridle4 小时前
教程:使用 InterBase Express 访问数据库(五):TIBTransaction
java·数据库·express
白云如幻4 小时前
MySQL排序查询
数据库·mysql
萧鼎5 小时前
Python并发编程库:Asyncio的异步编程实战
开发语言·数据库·python·异步
^velpro^5 小时前
数据库连接池的创建
java·开发语言·数据库
荒川之神5 小时前
ORACLE _11G_R2_ASM 常用命令
数据库·oracle
IT培训中心-竺老师5 小时前
Oracle 23AI创建示例库
数据库·oracle
小白学大数据5 小时前
JavaScript重定向对网络爬虫的影响及处理
开发语言·javascript·数据库·爬虫
time never ceases5 小时前
使用docker方式进行Oracle数据库的物理迁移(helowin/oracle_11g)
数据库·docker·oracle