10月28-29日,第八届中国开源年会(COSCon's23)在四川成都高新区菁蓉汇成功举办。作为开源领域的年度盛会,本次以"开源:川流不息、山海相映"为主题,吸引了众多行业学者、技术专家、开源爱好者的共同到场,KaiwuDB CTO 魏可伟受邀于主论坛发表《万物互联,探索新一代数据底座》主题演讲。
AI4DB---从数据中获取"知识",提升数据活力
万物互联时代激发了数据应用的多样可能性,但同时也对数据管理这一课题提出更多诉求。在 IoT 场景下,数据的获取、交换和处理是核心,随着数据量的激增,数据的边际价值下降,为了从这些工业数据中获取价值,AI 与 IoT 的结合显得尤为重要。
在 IoT 领域中,我们通常会把"A"加在前面,形成我们熟悉的 AIoT。究其原因,数据本身并不能为企业带来价值,但当通过不断学习,从数据中获取"知识",数据才具有生命力。更重要的是,万物互联时代所带来的成本和其所产生的收益,无法有效支撑企业形成良性发展,如果缺少 AI 加持,整个行业发展或将受阻。
回归到用户本位,技术背后的关键在于我们能否为用户提供行之有效的解决方案。实际情况中,技术存在很多不可控的问题阻碍用户使用;前期昂贵的基础设施投入,似乎也不是真的在帮用户降低成本。
因此,KaiwuDB 在立足于技术、产品及行业需求的基础上,主张"化繁为简",重视培养"原生 AI "能力,包括:智能生命周****期管理、降采样、智能预计算等功能,帮助企业构建数据获取、数据交换、数据处理分析的全链路能力,为终端用户提供挖掘更多数据价值的解决方案,以满足用户的实际需求。
智能生命周期管理
用以实现存储成本与数据价值之间的需求匹配。以时序数据为例,存储成本随着时间的推移不断加大,因此如何进行数据生命周期的管理至关重要。
其中,压缩是一种常用方法,但是压缩会带来性能上的消耗,因此需要权衡新旧数据的需求,利用 AI 技术对时间较长的数据进行压缩以减小存储空间,近期的数据可以存储在较大的空间中,合理平衡存储成本和数据的价值。
降采样
即减少数据采集频率。面临海量数据的场景,此时可以将高频率的数据采集降低为低频率,以减少存储成本。选取方式可以是随机选择或其他方式,核心目标是在尽可能保留表示趋势和重要信息的同时,减少数据存储量和处理开销。
在数据管理中,为了保留有价值的数据部分,可以利用 AI 技术介入,进行数据特征提取和信息压缩。例如 AI 可以根据应用需求分析数据行为模式,帮助用户选择更优的降采样策略,以保留具有代表性的数据。
智能预计算
即通过分析数据行为和查询模式,提前准备数据并优化聚合操作,从而提升查询性能。以时序数据场景为例,会以时间维度进行数据的聚合分析,这背后的一项关键技术就是智能预计算---即利用 AI 大脑预判用户会对哪些内容会做聚合分析,提前把结果"知识"计算好。
这一能力可快速实现结果反馈,极大程度提升性能;在生命周期管理方面,也可以通过 AI 对用户使用情况做出预判,如果 AI 预判用户对某一类数据不再频繁调用,可以自动挪到冷存储上,降低资源占用。
DB4AI---数据更活跃,用户低负担
在IoT 领域有一些常见的算法,比如常见的时间序列预测、图像识别等,这些都是我们在 AIoT 领域中比较关心的话题;与此同时,我们还需要解决数据库和 AI 两大生态割裂的问题,即如何实现从数据库里的数据产生的模型能够在数据库里用起来,同时避免让数据工程师、数据科学家们觉得有很多额外负担。
为此,KaiwuDB 提供了原生预测分析能力。我们希望提供一个平台,能够实现数据库和算法的紧密结合。比如,支持数据库中的函数调用平台上的模型训练、模型推理等能力。这样从数据库开发人员和管理人员的操作层面来看,他们相当于只在使用我们数据库的一个基本能力,并不会产生额外负担。另一方面,我们也可以为数据科学家开放接口,让他们能够把训练出来的模型,放进数据库中。通过上述方式,可以把各类数据库相关人员紧密联系起来。
此外,我们还提供一项生命周期管理引擎能力---Modelops in Database。举个例子:我们的 AI 模型,它本身是有时效性的。比如,用去年的数据训练出来的模型,今年未必适用。这个时候谁能够第一时间发现这个问题?应该是数据库。因为当我们发现数据分布已经发生明显的变化的时候,可以推测出该模型的性能可能也将处于风险之中,这个也是 KaiwuDB 在做 DB For AI 的关键思路。
写在最后
KaiwuDB 作为一款多模数据库,一个很重要的核心是用一体化的方式 、统一的接口提供给用户数据管理和处理的能力。 "大模型给我们带来一个非常好的机会,让我们真正地去实现一个完全不同的多模数据库" ,魏可伟表示。
就数据库而言,开源和创新一直是密不可分的。回顾整个数据库发展历程,创新至关重要,而开源是引领创新的重要途径。未来,KaiwuDB 将努力为各位伙伴提供更开放智能的数据库解决方案,后续我们也会有开源计划,敬请大家期待!