SGPT论文阅读笔记

  • 这是篇想要用GPT来提取sentence embedding的工作,提出了两个框架,一个是SGPT-BE,一个是SGPT-CE,分别代表了Bi-Encoder setting和Cross-Encoder setting。
  • CE的意思是在做阅读理解任务时,document和query是一起送进去,中间加个SEP token来做的,典型的是BERT。而GPT一般不是,但作者觉得GPT也可以是。也就是说,如果有k个document和一个新的query,需要把这个query和这k个document分别concate在一起,重新提取信息,走k次。
  • 而BE的意思是,document和query单独提取信息。每段document用pooling来提取一个vector即可,query单独提取一个vector,然后算相似度,就能知道document中是否有query要的信息。
  • BE的模型提出了新的pooling method,用的是position-weighted mean pooling,还有bias-only fine-tuning。
  • position-weighted mean pooling的意思是,前面的token由于mask的存在,注意力的时候看不到后面的token,所以要给低一点的权重,后面的token给高一点的权重,就按1 2 3 4 5这样随位置单调线性递增的权重即可,如下:
相关推荐
Leweslyh3 小时前
物理信息神经网络(PINN)八课时教案
人工智能·深度学习·神经网络·物理信息神经网络
柳鲲鹏4 小时前
jiangdg/AndroidCamera关闭摄像头流程
笔记
大多_C4 小时前
BERT outputs
人工智能·深度学习·bert
warrah4 小时前
k8s迁移——岁月云实战笔记
笔记·容器·kubernetes
知恩呐1115 小时前
seed_everything 函数
人工智能·深度学习
岳不谢6 小时前
华为DHCP高级配置学习笔记
网络·笔记·网络协议·学习·华为
卓琢7 小时前
2024 年 IA 技术大爆发深度解析
深度学习·ai·论文笔记
不如语冰7 小时前
深度学习Python基础(2)
人工智能·python·深度学习·语言模型
七夜星七夜月8 小时前
时间序列预测论文阅读和相关代码库
论文阅读·python·深度学习
19999er8 小时前
CDN信息收集(小迪网络安全笔记~
服务器·网络·笔记·安全·web安全