Vector Search with OpenAI Embeddings: Lucene Is All You Need

本文是LLM系列文章,针对《Vector Search with OpenAI Embeddings: Lucene Is All You Need》的翻译。

使用OpenAI嵌入的向量搜索:Lucence是你所需的一切

  • 摘要
  • [1 引言](#1 引言)
  • [2 从架构到实现](#2 从架构到实现)
  • [3 实验](#3 实验)
  • [4 讨论](#4 讨论)
  • [5 结论](#5 结论)

摘要

我们在流行的MS MARCO文章排名测试集上使用Lucene提供了一个可复制的、端到端的OpenAI嵌入向量搜索演示。我们工作的主要目标是挑战主流的说法,即专用向量存储是利用深度神经网络应用于搜索的最新进展所必需的。恰恰相反,我们表明Lucene中的分层可导航小世界网络(HNSW)索引足以在标准双编码器架构中提供向量搜索功能。这表明,从简单的成本效益分析来看,似乎没有令人信服的理由将专用向量存储引入现代"人工智能堆栈"中进行搜索,因为这些应用程序已经在现有的、广泛部署的基础设施中获得了大量投资。

1 引言

2 从架构到实现

3 实验

4 讨论

5 结论

毫无疑问,密集向量的操作是当今搜索的重要组成部分。我们要解决的核心争论是如何在生产系统中实施和部署这些功能。主流的说法是,你需要一个新的、独特的添加到你的企业"AI堆栈"中------一个向量存储。我们提出的另一种选择是:如果你已经构建了搜索应用程序,那么你很可能已经投资于Lucene生态系统。在这种情况下,Lucene就是您所需要的全部。当然,时间会告诉我们谁是对的。

相关推荐
会的全对٩(ˊᗜˋ*)و4 分钟前
【数据挖掘】数据挖掘综合案例—银行精准营销
人工智能·经验分享·python·数据挖掘
云渚钓月梦未杳6 分钟前
深度学习03 人工神经网络ANN
人工智能·深度学习
在美的苦命程序员9 分钟前
中文语境下的视频生成革命:百度 MuseSteamer 的“产品级落地”启示录
人工智能·百度
kngines25 分钟前
【字节跳动】数据挖掘面试题0007:Kmeans原理,何时停止迭代
人工智能·数据挖掘·kmeans
Kali_0728 分钟前
使用 Mathematical_Expression 从零开始实现数学题目的作答小游戏【可复制代码】
java·人工智能·免费
贾全35 分钟前
第十章:HIL-SERL 真实机器人训练实战
人工智能·深度学习·算法·机器学习·机器人
每日摸鱼大王40 分钟前
互联网摸鱼日报(2025-07-01)
人工智能
GIS小天1 小时前
AI+预测3D新模型百十个定位预测+胆码预测+去和尾2025年7月4日第128弹
人工智能·算法·机器学习·彩票
我是小哪吒2.01 小时前
书籍推荐-《对抗机器学习:攻击面、防御机制与人工智能中的学习理论》
人工智能·深度学习·学习·机器学习·ai·语言模型·大模型
慕婉03071 小时前
深度学习前置知识全面解析:从机器学习到深度学习的进阶之路
人工智能·深度学习·机器学习