SGPT论文阅读笔记

  • 这是篇想要用GPT来提取sentence embedding的工作,提出了两个框架,一个是SGPT-BE,一个是SGPT-CE,分别代表了Bi-Encoder setting和Cross-Encoder setting。
  • CE的意思是在做阅读理解任务时,document和query是一起送进去,中间加个SEP token来做的,典型的是BERT。而GPT一般不是,但作者觉得GPT也可以是。也就是说,如果有k个document和一个新的query,需要把这个query和这k个document分别concate在一起,重新提取信息,走k次。
  • 而BE的意思是,document和query单独提取信息。每段document用pooling来提取一个vector即可,query单独提取一个vector,然后算相似度,就能知道document中是否有query要的信息。
  • BE的模型提出了新的pooling method,用的是position-weighted mean pooling,还有bias-only fine-tuning。
  • position-weighted mean pooling的意思是,前面的token由于mask的存在,注意力的时候看不到后面的token,所以要给低一点的权重,后面的token给高一点的权重,就按1 2 3 4 5这样随位置单调线性递增的权重即可,如下:
相关推荐
AI医影跨模态组学1 小时前
Cancer Letters(IF=10.1)中科院自动化研究所田捷等团队:整合纵向MRI与活检全切片图像用于乳腺癌新辅助治疗反应的早期预测及个体化管理
人工智能·深度学习·论文·医学·医学影像
王飞飞不会飞1 小时前
Mac 安装Hermes Agent 过程记录
运维·深度学习·机器学习
是梦终空1 小时前
计算机毕业设计271—基于python+深度学习+YOLOV7的车牌识别系统(源代码+数据库+3万字论文)
python·深度学习·opencv·yolo·毕业设计·pyqt5·车牌识别系统
三品吉他手会点灯1 小时前
C语言学习笔记 - 1.C概述 - 本讲内容概述
c语言·笔记·学习
是孑然呀3 小时前
【笔记】激光定位-激光切割指针偏移设置
笔记
金融小师妹3 小时前
多因子情景推演模型:霍尔木兹扰动下的全球资产再定价与波动率重构
深度学习·svn·逻辑回归·能源
数据门徒3 小时前
神经网络核心概念 全景梳理与关系图谱
人工智能·深度学习·神经网络
Yuanxl9034 小时前
Torchvision 0.26:深度学习视觉库全面解析
网络·人工智能·pytorch·深度学习
中屹指纹浏览器4 小时前
2026指纹浏览器性能优化实战:多开稳定性与资源占用控制全解析
经验分享·笔记
Narrastory4 小时前
Note:强化学习(三)
人工智能·深度学习·强化学习