Vector Search with OpenAI Embeddings: Lucene Is All You Need

本文是LLM系列文章,针对《Vector Search with OpenAI Embeddings: Lucene Is All You Need》的翻译。

使用OpenAI嵌入的向量搜索:Lucence是你所需的一切

  • 摘要
  • [1 引言](#1 引言)
  • [2 从架构到实现](#2 从架构到实现)
  • [3 实验](#3 实验)
  • [4 讨论](#4 讨论)
  • [5 结论](#5 结论)

摘要

我们在流行的MS MARCO文章排名测试集上使用Lucene提供了一个可复制的、端到端的OpenAI嵌入向量搜索演示。我们工作的主要目标是挑战主流的说法,即专用向量存储是利用深度神经网络应用于搜索的最新进展所必需的。恰恰相反,我们表明Lucene中的分层可导航小世界网络(HNSW)索引足以在标准双编码器架构中提供向量搜索功能。这表明,从简单的成本效益分析来看,似乎没有令人信服的理由将专用向量存储引入现代"人工智能堆栈"中进行搜索,因为这些应用程序已经在现有的、广泛部署的基础设施中获得了大量投资。

1 引言

2 从架构到实现

3 实验

4 讨论

5 结论

毫无疑问,密集向量的操作是当今搜索的重要组成部分。我们要解决的核心争论是如何在生产系统中实施和部署这些功能。主流的说法是,你需要一个新的、独特的添加到你的企业"AI堆栈"中------一个向量存储。我们提出的另一种选择是:如果你已经构建了搜索应用程序,那么你很可能已经投资于Lucene生态系统。在这种情况下,Lucene就是您所需要的全部。当然,时间会告诉我们谁是对的。

相关推荐
池央2 分钟前
StyleGAN - 基于样式的生成对抗网络
人工智能·神经网络·生成对抗网络
PaLu-LI36 分钟前
ORB-SLAM2源码学习:Initializer.cc⑧: Initializer::CheckRT检验三角化结果
c++·人工智能·opencv·学习·ubuntu·计算机视觉
小猪咪piggy1 小时前
【深度学习入门】深度学习知识点总结
人工智能·深度学习
汤姆和佩琦1 小时前
2025-1-20-sklearn学习(42) 使用scikit-learn计算 钿车罗帕,相逢处,自有暗尘随马。
人工智能·python·学习·机器学习·scikit-learn·sklearn
听吉米讲故事1 小时前
DeepSeek R1发布综述:开源大语言模型的推理能力新标杆
人工智能·语言模型·自然语言处理
热爱编程的OP2 小时前
机器学习 vs 深度学习
人工智能·深度学习·机器学习
跟德姆(dom)一起学AI3 小时前
0基础跟德姆(dom)一起学AI 自然语言处理18-解码器部分实现
人工智能·python·rnn·深度学习·自然语言处理·transformer
清图3 小时前
Python 预训练:打通视觉与大语言模型应用壁垒——Python预训练视觉和大语言模型
人工智能·python·深度学习·机器学习·计算机视觉·自然语言处理·ai作画
琴智冰3 小时前
使用ollama本地部署微调后的大语言模型
人工智能·语言模型·自然语言处理
京东零售技术4 小时前
请查收| 京东零售技术AI领域前沿探索-10篇顶会论文合集
人工智能