Re59:读论文 Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks

诸神缄默不语-个人CSDN博文目录
诸神缄默不语的论文阅读笔记和分类

论文名称:Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks

模型开源地址:https://huggingface.co/facebook/rag-token-nq

ArXiv下载地址:https://arxiv.org/abs/2005.11401

本文是2020年NeurIPS论文,属于RAG+LLM领域。作者来自Facebook

本文的研究背景也是说直接用LM存储的知识不够,且难以扩展和修正,有幻觉,还是得上检索(提供决策出处,可以更新知识)。

LM是预训练的seq2seq模型(BART),知识库是维基百科的稠密向量索引(用预训练的神经网络实现检索 Dense Passage Retriever (DPR))。要么一次检索一波(per-output basis),要么一个token检索一波(per-token basis)(这个见模型部分)。

其实看起来就是REALM的拓展版,将检索文档改成视为隐变量,然后拓展了下游任务,而且是全链路端到端的训练。

比REALM迟,参考文献里就有REALM。但是不用代价高昂的"salient span masking" pre-training

总之整个工作还是做得很全面的,实验充分,真羡慕啊。

文章目录

  • [1. related work](#1. related work)
  • [2. 模型](#2. 模型)
  • [3. 实验](#3. 实验)

non-parametric memory除检索外的形式:

memory networks

stack-augmented networks

memory layers

RAG知识量大而且不需要额外训练

knowledge-intensive tasks:人们认为没有额外知识就没法做的任务,比如常识题(什么行测)

2. 模型

端到端训练:将检索到的文档视为隐变量

RAG-Sequence:对每一篇检索文档都预测完整的生成结果,加总

RAG-Token:每一个token都是大家的机会,每个token上重新检索一次

检索器DPR

top k:Maximum Inner Product Search (MIPS)问题 ← FAISS

生成器BART

(在实验中只更新query encoder和生成器)

训练时没有检索文档的标注信息。

解码:

  1. RAG-Token:标准生成任务
  2. RAG-Sequence:Thorough Decoding + Fast Decoding(没看懂其实,以后再看)

3. 实验

Jeopardy Question Generation指标这里用了一个Q-BLEU,以前我还真没见过

还有一条是生成能获得原文中没有的结果

在生成方面还有一些别的优势,略。

RAG-Token的后验概率可视化:

这里面这个太阳照常升起和永别了武器都是在开头概率高了点,后面就平了,论文里提及认为这里时因为模型内置信息能够自己填完了,还做了个小实验。

生成的多样性:

冻结检索器的消融实验:

更新知识的实验

检索文档数(K)的影响:

相关推荐
qzhqbb1 小时前
基于统计方法的语言模型
人工智能·语言模型·easyui
冷眼看人间恩怨2 小时前
【话题讨论】AI大模型重塑软件开发:定义、应用、优势与挑战
人工智能·ai编程·软件开发
2401_883041082 小时前
新锐品牌电商代运营公司都有哪些?
大数据·人工智能
AI极客菌3 小时前
Controlnet作者新作IC-light V2:基于FLUX训练,支持处理风格化图像,细节远高于SD1.5。
人工智能·计算机视觉·ai作画·stable diffusion·aigc·flux·人工智能作画
阿_旭3 小时前
一文读懂| 自注意力与交叉注意力机制在计算机视觉中作用与基本原理
人工智能·深度学习·计算机视觉·cross-attention·self-attention
王哈哈^_^3 小时前
【数据集】【YOLO】【目标检测】交通事故识别数据集 8939 张,YOLO道路事故目标检测实战训练教程!
前端·人工智能·深度学习·yolo·目标检测·计算机视觉·pyqt
Power20246664 小时前
NLP论文速读|LongReward:基于AI反馈来提升长上下文大语言模型
人工智能·深度学习·机器学习·自然语言处理·nlp
数据猎手小k4 小时前
AIDOVECL数据集:包含超过15000张AI生成的车辆图像数据集,目的解决旨在解决眼水平分类和定位问题。
人工智能·分类·数据挖掘
好奇龙猫4 小时前
【学习AI-相关路程-mnist手写数字分类-win-硬件:windows-自我学习AI-实验步骤-全连接神经网络(BPnetwork)-操作流程(3) 】
人工智能·算法
沉下心来学鲁班4 小时前
复现LLM:带你从零认识语言模型
人工智能·语言模型