检索增强生成算法

检索增强生成算法(Retrieval-Augmented Generation,RAG)是由Patrick Lewis等人于2020年提出的(https://arxiv.org/pdf/2005.11401),主要用于辅助大规模语言模型(Large Language Models, LLMs)在生成结果之前,查阅/检索外部知识库,得到相关辅助资料,用于"开卷"作答(如果是问答应用模式下),使生成的内容具有除了大模型本身具备的知识以外,有外部知识的支撑和辅助。具体算法的架构图,如下:

图 RAG的算法框架图

其中,如果对于没有应用RAG进行文本生成,只需要图中的生成器部分,x为用户的提示词或者问题等,输入到生成器中,生成器一般使用常用的LLMs进行文本的生成操作。

而RAG加入了检索器模块,论文中使用的外部知识库是wikipedia文章库,针对用户输入x,到外部知识库中进行检索,得到最相关的k篇文章段落。将检索到的相关文章段落与用户输入进行拼接,一起输入到生成器进行生成操作。

一般的文本生成模型就是典型的seq2seq模型,输入和输出都是文本序列。通过文本对训练大型语言模型(LLMs),用户输入文本后使用预训练好的LLMs生成输出文本序列。使用过程完全依赖于LLMs在训练过程中习得的语言技能和知识。

RAG的加入,帮助LLMs使用外部知识,在一定程度上缓解大模型的幻觉问题、非实时性等问题。

(未完待续)

相关推荐
Mintopia4 小时前
🧠 AIGC模型的增量训练技术:Web应用如何低成本迭代能力?
前端·javascript·aigc
沃恩智慧5 小时前
超越CNN和Transformer!Mamba结合多模态统领图像任务!
人工智能·cnn·transformer
RanceGru5 小时前
LLM学习笔记5——本地部署ComfyUI和Wan2.1-T2V-1.3B文生视频模型
笔记·学习·stable diffusion·transformer
桂花饼6 小时前
Sora 2:当AI视频“以假乱真”,内容创作进入新纪元,体验AI创作能力
人工智能·aigc·多模态学习·ai视频生成·sora 2·视频生成api
聚客AI8 小时前
系统提示的“消亡”?上下文工程正在重新定义人机交互规则
图像处理·人工智能·pytorch·语言模型·自然语言处理·chatgpt·gpt-3
MoyiTech9 小时前
【论文阅读】LANGUAGE MODELS CAN LEARN FROM VERBAL FEEDBACK WITHOUT SCALAR REWARDS
论文阅读·人工智能·语言模型
xwz小王子10 小时前
Nature Machine Intelligence丨多模态大型语言模型中的视觉认知
人工智能·语言模型·自然语言处理
墨风如雪19 小时前
不止能聊,还能“动手”:谷歌AI代理掀起数字浪潮
aigc
三天哥21 小时前
演示和解读ChatGPT App SDK,以后Android/iOS App不用开发了?
人工智能·ai·chatgpt·aigc·openai·智能体·appsdk
johnny2331 天前
Transformer基础之注意力机制
transformer