SGPT论文阅读笔记

  • 这是篇想要用GPT来提取sentence embedding的工作,提出了两个框架,一个是SGPT-BE,一个是SGPT-CE,分别代表了Bi-Encoder setting和Cross-Encoder setting。
  • CE的意思是在做阅读理解任务时,document和query是一起送进去,中间加个SEP token来做的,典型的是BERT。而GPT一般不是,但作者觉得GPT也可以是。也就是说,如果有k个document和一个新的query,需要把这个query和这k个document分别concate在一起,重新提取信息,走k次。
  • 而BE的意思是,document和query单独提取信息。每段document用pooling来提取一个vector即可,query单独提取一个vector,然后算相似度,就能知道document中是否有query要的信息。
  • BE的模型提出了新的pooling method,用的是position-weighted mean pooling,还有bias-only fine-tuning。
  • position-weighted mean pooling的意思是,前面的token由于mask的存在,注意力的时候看不到后面的token,所以要给低一点的权重,后面的token给高一点的权重,就按1 2 3 4 5这样随位置单调线性递增的权重即可,如下:
相关推荐
chennalC#c.h.JA Ptho3 小时前
在macOS上安装windows系统
经验分享·笔记·macos
10000hours5 小时前
【C语言编译】编译原理和详细过程
linux·c语言·笔记
Blossom.1185 小时前
脑机接口技术:开启人类与机器的全新交互时代
人工智能·驱动开发·深度学习·计算机视觉·aigc·硬件架构·交互
消失的dk6 小时前
Softmax回归与单层感知机对比
python·深度学习
贩卖黄昏的熊7 小时前
JavaScript 笔记 --- part8 --- JS进阶 (part3)
前端·javascript·笔记
彼得虫7 小时前
【BLIP】解读BLIP
深度学习·解码多模态
phoenix@Capricornus8 小时前
神经网络发展的时间线——积跬步至千里
人工智能·深度学习·神经网络
Sweblish9 小时前
小知识总结记录
笔记
长长同学10 小时前
基于C++实现的深度学习(cnn/svm)分类器Demo
c++·深度学习·cnn
田梓燊10 小时前
专业课复习笔记 4
笔记