大语言模型:Query Rewriting for Retrieval-Augmented Large Language Models

总体思路

  • 作者首先指出大语言模型虽然取得了很好的效果,但是仍然存在幻觉和时间顺序混乱的问题,因此需要额外知识库和LLM内部知识库相结合,来修正;
  • 因此优化传统的retriever-reader的方案成为需要;
  • 目前的研究方案当中使用prompt优化的方法是黑盒的不可修改;
  • 因此作者提出了采用大模型重写query的rewrite的方法来优化;
  • 同时作者也提出这种重写的方法可以不是局限于大语言模型的,直接使用可训练的语言模型也能完成相关任务;
  • 在实验当中这种方法对下游任务reader的效果取得了良好的效果。(也就是没有直接评测,而是评测了下游任务)
    直接看这个图大致就可以获得作者提出的方案和原始方案的区别了。

训练细节

  • 作者基础版本的使用LLM的rewriter当中也是使用meta-prompt进行query改写;
  • 作者在训练版本使用了T5作为被训练模型,在开始真正训练之前,因为T5模型本身不能完成这个query获取的任务,因此先使用pseudo数据进行训练,使得其具有这个能力,这些数据就是上一步LLM实现query改写获得的数据;
  • 在训练的过程中主要有几个组成:状态(序列×字母可能性)、动作、概率(实际上的改写策略,默认是上一步预热得到的模型)、reward(使用结果得出的结论)、γ(最终得到的reader输出结果,有无限多种)的强化学习方法
相关推荐
H1_Coldfire17 分钟前
Nanbeige4.1-3B本地化部署(GPU RTX 3090)
python·语言模型
我要学好英语21 分钟前
概率密度——分布、期望、方差和协方差
深度学习·概率论·概率密度·方差·协方差·期望·分布
放下华子我只抽RuiKe529 分钟前
深度学习 - 01 - NLP自然语言处理基础
前端·人工智能·深度学习·神经网络·自然语言处理·矩阵·easyui
AI-Ming31 分钟前
程序员转行学习 AI 大模型: 模型微调| 附清晰概念分类
人工智能·pytorch·深度学习·机器学习·chatgpt·nlp·gpt-3
盼小辉丶1 小时前
PyTorch实战(39)——使用Captum解释深度学习模型
pytorch·深度学习·模型解释
禁默1 小时前
从零吃透大语言模型 LLM,AI 应用开发必懂底层逻辑
人工智能·机器学习·语言模型·大模型
卖报的大地主1 小时前
视觉生成底层技术发展脉络与研究图谱
人工智能·深度学习·计算机视觉
AI科技星1 小时前
基于v≡c光速螺旋理论的正确性证明:严格遵循科学方法论的完整路径
c语言·开发语言·人工智能·线性代数·算法·机器学习·数学建模
RFdragon5 小时前
分享本周所学——三维重建算法3D Gaussian Splatting(3DGS)
人工智能·线性代数·算法·机器学习·计算机视觉·矩阵·paddlepaddle
星河耀银海5 小时前
3D效果:HTML5 WebGL结合AI实现智能3D场景渲染
前端·人工智能·深度学习·3d·html5·webgl