检索增强生成算法

检索增强生成算法(Retrieval-Augmented Generation,RAG)是由Patrick Lewis等人于2020年提出的(https://arxiv.org/pdf/2005.11401),主要用于辅助大规模语言模型(Large Language Models, LLMs)在生成结果之前,查阅/检索外部知识库,得到相关辅助资料,用于"开卷"作答(如果是问答应用模式下),使生成的内容具有除了大模型本身具备的知识以外,有外部知识的支撑和辅助。具体算法的架构图,如下:

图 RAG的算法框架图

其中,如果对于没有应用RAG进行文本生成,只需要图中的生成器部分,x为用户的提示词或者问题等,输入到生成器中,生成器一般使用常用的LLMs进行文本的生成操作。

而RAG加入了检索器模块,论文中使用的外部知识库是wikipedia文章库,针对用户输入x,到外部知识库中进行检索,得到最相关的k篇文章段落。将检索到的相关文章段落与用户输入进行拼接,一起输入到生成器进行生成操作。

一般的文本生成模型就是典型的seq2seq模型,输入和输出都是文本序列。通过文本对训练大型语言模型(LLMs),用户输入文本后使用预训练好的LLMs生成输出文本序列。使用过程完全依赖于LLMs在训练过程中习得的语言技能和知识。

RAG的加入,帮助LLMs使用外部知识,在一定程度上缓解大模型的幻觉问题、非实时性等问题。

(未完待续)

相关推荐
祯民10 小时前
两年工作之余,我在清华大学出版社出版了一本 AI 应用书籍
前端·aigc
浪遏11 小时前
Langchain.js | Memory | LLM 也有记忆😋😋😋
前端·llm·aigc
AI趋势预见11 小时前
使用AI生成金融时间序列数据:解决股市场的数据稀缺问题并提升信噪比
人工智能·深度学习·神经网络·语言模型·金融
背太阳的牧羊人12 小时前
冻结语言模型中的 自注意力层,使其参数不参与训练(梯度不会更新)。 对于跨注意力层,则解冻参数,使这些层可以进行梯度更新,从而参与训练。
人工智能·语言模型·自然语言处理
佛州小李哥16 小时前
在亚马逊云科技上用AI提示词优化功能写出漂亮提示词(上)
人工智能·科技·ai·语言模型·云计算·aws·亚马逊云科技
AI小欧同学16 小时前
【AIGC提示词系统】赛博朋克·韵律:一个融合科技与艺术的对话系统设计
科技·aigc
孟健20 小时前
重磅首发:国产AI编程助手Trae实测!免费用上Claude是什么体验?
前端·aigc·visual studio code
XianxinMao20 小时前
重构开源LLM分类:从二分到三分的转变
人工智能·语言模型·开源
Yuleave1 天前
PaSa:基于大语言模型的综合学术论文搜索智能体
人工智能·语言模型·自然语言处理
周杰伦_Jay1 天前
简洁明了:介绍大模型的基本概念(大模型和小模型、模型分类、发展历程、泛化和微调)
人工智能·算法·机器学习·生成对抗网络·分类·数据挖掘·transformer