Pinecone 的首席执行官正在寻求赋予人工智能类似知识的东西

长期以来,公司一直在尝试跨人工智能核心的向量进行搜索。这是该领域一直在寻找的重点技术吗?

ChatGPT和其他生成式人工智能程序会吐出"幻觉",将虚假的断言当成事实,因为这些程序并不是为了"知道"任何东西而构建的;而是为了"了解"任何东西。它们只是为了生成一串字符而构建,该字符串是您刚刚键入的内容的合理延续。

初创公司 Pinecone 首席执行官兼创始人 Edo Liberty 在接受采访时表示:"如果我问有关医学、法律或某些技术问题,LLM(大语言模型)将不会获得该信息,特别是如果该信息是专有的。"最近与 ZDNET 合作。"所以,它只会编造一些东西,我们称之为幻觉。"

Liberty 的公司是一家成立四年、由风险投资支持的软件制造商,总部位于纽约,专门研究所谓的矢量数据库。该公司已获得 1.38 亿美元融资,旨在将 GenAI 看似合理的输出建立在更权威、类似于实际知识的基础上。

"正确的做法是,当你有查询、提示时,从向量数据库中获取相关信息,将其放入上下文窗口中,突然你的查询或与语言模型的交互变得很多更有效,"Liberty 解释道。

向量数据库是快速扩展的"检索增强生成"(RAG)工作的一个角落,法学硕士在形成输出的过程中寻求外部输入,以放大神经网络本身的能力。

在所有 RAG 方法中,向量数据库是在研究和工业领域拥有最深厚背景的方法之一。它以原始形式存在了十多年。

在他之前在大型科技公司任职期间,Liberty 帮助开创了矢量数据库,将其作为一项幕后的臭鼬工厂事务。他曾担任 Yahoo! 的研究主管、Amazon AWS SageMaker 平台的研究高级经理,后来担任 Amazon AI 实验室的负责人。

Liberty 告诉 ZDNET:"如果你看看亚马逊的购物推荐、Facebook 的提要排名、广告推荐或谷歌的搜索,你会发现它们都在幕后使用实际上是矢量数据库的东西。"

Liberty 表示,多年来,即使在数据库社区内,矢量数据库"仍然是一种保守的秘密"。这种早期的矢量数据库并不是现成的产品。"每家公司都必须在内部构建一些东西来做到这一点,"他说。"我本人参与构建了很多需要一些矢量数据库功能的不同平台。"

Liberty 在 Amazon 的那些年的见解是,使用向量不能简单地填充到现有数据库中。"它是一个独立的架构,它是一个独立的数据库,一项服务------它是一种新型数据库,"他说。

他说,早在 ChatGPT 之前,人工智能的"冰球将走向何方"就已经很清楚了。Liberty 表示:"Google 的 BERT 等语言模型是第一个开始受到普通开发人员欢迎的语言模型。"他指的是 2018 年推出的 Google 生成式 AI 系统,它是 ChatGPT 的前身。

"当这种情况开始发生时,那就是市场的阶段性转变。" 他说,这是一个他必须接受的转变。

"我知道构建基础数据库层有多困难,需要多长时间,而且我们必须提前开始,因为我们只有几年时间才能被数千家公司使用。"

任何数据库都是由数据的组织方式(例如关系数据库的行和列)以及访问方式(例如关系的结构化查询语言)来定义的。

在矢量数据库的情况下,每条数据都由所谓的矢量嵌入表示,这是一组基于相似性将数据放置在抽象空间("嵌入空间")中的数字。例如,伦敦和巴黎这两个城市在地理上的距离比任一城市与纽约的距离更近。向量嵌入只是表示相对相似度的有效数字方式。

在嵌入空间中,任何类型的数据都可以根据相似性表示为更近或更远。例如,文本可以被认为是接近的单词,例如"占领"和"位于",它们之间的距离比它们与"建立"等单词的距离更近。图像、声音、程序代码------所有种类的东西都可以简化为数字向量,然后根据它们的相似性进行嵌入。

为了访问数据库,向量数据库将查询转换为向量,然后根据向量在嵌入空间中与数据库中的向量的接近程度,将该向量与数据库中的向量进行比较,这就是所谓的"相似性搜索"。最接近的匹配就是输出,即查询的答案。

您可以看到这与推荐引擎有明显的相关性:两种真空吸尘器之间的距离可能比其中任何一种与第三种真空吸尘器之间的距离更近。对真空吸尘器的查询可能会匹配它与三个真空吸尘器的任何描述的接近程度。扩大或缩小查询可以导致在整个嵌入空间中更广泛或更精细地搜索相似性。

但是跨向量嵌入的相似性搜索本身不足以创建数据库。充其量,它是用于非常基本检索的简单向量索引。

Liberty 认为,矢量数据库必须有一个管理系统,就像关系数据库一样,可以处理用户甚至不知道的众多挑战。这包括如何跨可用存储介质存储各种向量,如何跨分布式系统扩展存储,以及如何在系统内更新、添加和删除向量。

"这些都是非常非常独特的查询,而且很难做到,当你大规模地这样做时,你必须构建一个高度专业化的系统,"Liberty 说。

"它必须从头开始构建,在算法和数据结构等方面,而且它必须是云原生的,否则,老实说,你无法真正获得成本、规模、性能权衡这使得它在生产中可行且合理。"

将查询与数据库中存储的向量相匹配显然与GPT-4等大型语言模型非常吻合。它们的主要功能是将矢量形式的查询与其积累的训练数据(汇总为矢量)以及您之前输入的内容(也表示为矢量)进行匹配。

"LLM(大型语言模型)访问数据的方式,实际上是通过向量本身访问数据,"Liberty 解释道。"它不是元数据,也不是表示信息的主要方式的附加字段" 。

例如,"如果你想说,给我看起来像这样的所有东西,然后我看到一张图像 - 也许我会裁剪一张脸,然后说,好吧,从我的所有图像中从数据库中获取看起来像这样的每个人"。

"或者,如果它是音频,听起来像这样的东西,或者如果它是文本,它就是与本文档相关的东西。" 这些类型的组合查询都可以是跨不同向量嵌入空间的不同相似性搜索的问题。正如 ZDNET 所言,这对于 GenAI 即将到来的多模式未来特别有用。

再次强调,重点是减少幻觉。

"假设您正在构建一个技术支持应用程序:法学硕士可能接受过一些随机产品的培训,但不是您的产品,而且它肯定不会有您即将发布的新版本,即尚未公开的文档。 " 结果,"它只会编造一些东西。" 相反,使用矢量数据库,与新产品有关的提示将与该特定信息相匹配。

RAG 的整体工作中还正在探索其他有希望的途径。人工智能科学家意识到大型语言模型的局限性,一直在尝试近似数据库的功能。包括微软在内的许多团体都尝试过直接将类似原始内存的东西附加到 LLM 上。

通过扩展"上下文窗口"(该术语表示之前在 ChatGPT 等程序的提示中输入的内容量),每次聊天会话都可以回忆起更多内容。

Liberty 告诉,这种方法只能走这么远。"该上下文窗口可能包含也可能不包含实际产生正确答案所需的信息,"他说,而在实践中,他认为"几乎肯定不会"。

"如果你问一个有关医学的问题,你不会将所有医学知识放入上下文窗口中,"他指出。自由说,在最坏的情况下,这种所谓的"上下文填充"实际上会加剧幻觉,"因为你增加了噪音"。

当然,其他数据库软件和工具供应商已经看到了搜索向量之间相似性的优点,并且正在向其现有产品添加功能。其中包括最流行的非关系数据库系统之一 MongdoDB,该系统已在其 Atlas 云管理数据库平台中添加了"矢量搜索"。它还包括小型数据库供应商 Couchbase。

"它们不起作用,"自由女神谈到效仿的努力时说,"因为它们甚至没有适当的机制。"

在他看来,其他数据库系统的访问方式不能与向量相似性搜索挂钩。《自由》提供了一个回忆的例子。"如果我问你最近接受的采访是什么,你大脑中发生的不是 SQL 查询,"他说,指的是关系数据库的结构化检索语言。

"你有内涵,你可以通过上下文获取相关信息------矢量数据库可以做到类似或类比,因为它们表示数据的方式",而其他数据库由于其结构而无法做到。

"我们高度专业化,能够非常出色地完成矢量搜索,并且我们是从头开始构建的,从算法到数据结构,到数据布局和查询规划,再到云中的架构,都做得非常好。"

他说,MongoDB、Couchbase 和其他公司"正在尝试做的事情,并且从某种意义上说,成功地是混淆了矢量数据库的含义"。"他们知道,在规模上,当涉及到使用矢量数据库构建现实世界的应用程序时,不会有竞争。"

"如今,我们有数千家公司在使用我们的产品,"Liberty 说道,"数十万开发人员在 Pinecone 上构建了产品,我们的客户端被下载了数百万次,并在各地使用。" 松果"被天知道有多少种不同的调查评为第一"。

最近的收入增长显然是可观的。2022 年底,Pinecone 的年度经常性收入为 200 万美元,这是衡量客户合同总价值的指标。营销副总裁 Greg Kogan 在给 ZDNET 的电子邮件中表示,该公司今年年底的 ARR 将达到"数千万"美元。

Kogan 在电子邮件中写道:"我们的增长在 2022 年强劲,在 2023 年绝对疯狂,因为矢量数据库成为 GenAI 的核心组成部分,而 Pinecone 一直是市场领导者。" "我们预计这种情况将持续到 2024 年。"

Liberty 表示,展望未来,Pinecone 未来几年将致力于构建一个更接近知识实际含义的系统。

Liberty 说"我认为有趣的问题是我们如何表示知识?" 。"如果你有一个需要真正智能的人工智能系统,它就需要了解一些东西。"

Liberty 表示,表示人工智能知识的途径绝对是向量数据库。"但这不是最终的答案,"他说。"这是答案的最初部分。" 他说,"还需要对技术进行两年、三年、五年、十年的投资,以使这些系统更好地相互集成,从而更准确地表示数据"。

"我们面前有一个巨大的路线图,让知识成为每个应用程序不可或缺的一部分。"

相关推荐
喵叔哟11 分钟前
重构代码之移动字段
java·数据库·重构
念白44314 分钟前
智能病历xml提取
数据库·sql·oracle
qingy_204618 分钟前
【JavaWeb】JavaWeb入门之XML详解
数据库·oracle
tyler_download21 分钟前
手撸 chatgpt 大模型:简述 LLM 的架构,算法和训练流程
算法·chatgpt
大数据面试宝典22 分钟前
用AI来写SQL:让ChatGPT成为你的数据库助手
数据库·人工智能·chatgpt
努力的小雨27 分钟前
快速上手 KSQL:轻松与数据库交互的利器
数据库·经验分享
Gentle58629 分钟前
labview中连接sql server数据库查询语句
数据库·labview
Gentle58631 分钟前
labview用sql server数据库存取数据到一个单元格
数据库·labview
2401_8576363933 分钟前
共享汽车管理新纪元:SpringBoot框架应用
数据库·spring boot·汽车
菲兹园长34 分钟前
表的设计(MYSQL)
数据库·mysql