FiD:利用具有生成模型的段落检索进行开放域问答

前言

(1)开放域问答的生成模型已被证明具有相当竞争力的性能,可以无需借助外部知识完成任务。本工作研究了这些生成模型从检索到的可能包含证据的文本段落中能受益多少;

(2)作者观察到,当增加检索到的段落数量时,这种方法的性能会显著提高。这证明了Seq2seq模型能提供一个灵活的框架,可以有效地聚合和组合来自多个段落的证据。


一、解码中的融合(Fusion-in-Decoder)模型

1.1 检索

本工作探索了两种段落检索的方式:

(1)BM25,段落表示为单词袋,排名函数基于词频(TF)和逆文档频率(IDF),使用SpaCy库对问题和段落进行token化;

(2)DPR,段落和问题表示为密集向量表示,使用两个BERT网络分别得到嵌入向量。排名函数是查询和段落表示之间的点积,使用FAISS库的近似最近邻进行检索。


1.2 生成

生成模型选择基于Seq2seq的网络(如T5或BART),因为这些模型对无监督数据进行了预训练。模型结构如下图所示:

(1)模型将问题以及检索到的段落一起作为输入,并生成答案。更确切地说,每个检索到的段落及其标题都与问题concat在一起,并由编码器独立于其他段落进行处理。

(2)在问题、每个段落的标题和文本之前添加特殊的token------question:title:context:

(3)decoder对所有问题-段落对的向量表示进行concat操作,并对该连接后的表示进行注意力计算。该模型仅在解码器中执行文本融合,因此称之为解码器中的融合。

在编码器中独立处理段落,但在解码器中联合处理。好处有:

(1)在编码器中独立处理段落允许扩展到大量上下文,因为它一次只对一个上下文进行自我关注,这意味着模型的计算时间随通道数量呈线性增长,而不是二次增长;

(2)另一方面,在解码器中联合处理段落可以更好地聚合来自多个段落的证据。


二、训练和推理

通过独立编码多个段落、在解码器中进行融合的方式,实现了对多源信息的灵活整合。

2.1 训练

(1)输入

由多个独立的文本序列组成,每个序列的结构如下:

python 复制代码
question: [问题文本]
title: [段落标题,如 Wikipedia 页面标题]
context: [段落正文]

注意:每个 "问题 + 一个段落" 是一个独立输入序列,彼此之间在编码器中是分开的。

(2)输出

一个短文本序列 ,即标准答案

(3)训练目标

最小化生成答案与真实答案之间的交叉熵损失。


2.2 推理

(1)输入

同样是将"问题 + 每个段落"分别送入编码器。

(2)输出:

同样是一个短文本序列(如 "亚历山大·贝尔")。


三、总结

本工作所提的方法与先前作品的不同之处在于生成模型 如何处理检索到的段落,即编码阶段独立,解码阶段融合。这允许扩展到大量文档,并从大量证据中受益。

相关推荐
Lee川27 分钟前
mini-cursor 揭秘:从 Tool 定义到 Agent 循环的完整实现
前端·人工智能·后端
weelinking42 分钟前
【产品】00_产品经理用Claude实现产品系列介绍
数据库·人工智能·sql·数据挖掘·github·产品经理
Agent产品评测局1 小时前
制造业模具管理AI系统,主流产品能力对比详解:2026年智能制造选型深度洞察
人工智能·ai·chatgpt·制造
研华科技Advantech1 小时前
如何用一套实训设备,打通工业AI预测性维护技术全流程?
人工智能
Lab_AI1 小时前
AI for Science: MaXFlow AI Agent+ 报告体验双升级,让AI智能体更高效易用!
人工智能·ai for science·ai agent·ai智能体
李坤2 小时前
让 Codex 和 Claude 互相 Review:告别手动复制
人工智能·openai·claude
南屹川2 小时前
【API设计】GraphQL实战:从REST到GraphQL的演进
人工智能
KJ_BioMed2 小时前
当计算生物学遇上生成式AI:从头设计生物分子的“新范式”初探
人工智能·从头设计·生命科学·生物医药·科研干货·科晶生物
明月醉窗台2 小时前
深度学习(17)YOLO训练中的超参数详解
人工智能·深度学习·yolo
淘矿人2 小时前
Claude辅助DevOps实践
java·大数据·运维·人工智能·算法·bug·devops