SGPT论文阅读笔记

  • 这是篇想要用GPT来提取sentence embedding的工作,提出了两个框架,一个是SGPT-BE,一个是SGPT-CE,分别代表了Bi-Encoder setting和Cross-Encoder setting。
  • CE的意思是在做阅读理解任务时,document和query是一起送进去,中间加个SEP token来做的,典型的是BERT。而GPT一般不是,但作者觉得GPT也可以是。也就是说,如果有k个document和一个新的query,需要把这个query和这k个document分别concate在一起,重新提取信息,走k次。
  • 而BE的意思是,document和query单独提取信息。每段document用pooling来提取一个vector即可,query单独提取一个vector,然后算相似度,就能知道document中是否有query要的信息。
  • BE的模型提出了新的pooling method,用的是position-weighted mean pooling,还有bias-only fine-tuning。
  • position-weighted mean pooling的意思是,前面的token由于mask的存在,注意力的时候看不到后面的token,所以要给低一点的权重,后面的token给高一点的权重,就按1 2 3 4 5这样随位置单调线性递增的权重即可,如下:
相关推荐
hour_go7 分钟前
TCP/IP协议相关知识点
网络·笔记·网络协议·tcp/ip
fantasy_arch25 分钟前
transformer-注意力评分函数
人工智能·深度学习·transformer
BreezeJuvenile38 分钟前
深度学习实验一之图像特征提取和深度学习训练数据标注
人工智能·深度学习
潘达斯奈基~38 分钟前
在使用spark的applyInPandas方法过程中,遇到类型冲突问题如何解决
大数据·笔记
万俟淋曦1 小时前
【论文速递】2025年第30周(Jul-20-26)(Robotics/Embodied AI/LLM)
人工智能·深度学习·ai·机器人·论文·robotics·具身智能
红苕稀饭6661 小时前
PVC论文阅读
论文阅读
高洁011 小时前
大模型-高效优化技术全景解析:微调 量化 剪枝 梯度裁剪与蒸馏 下
人工智能·python·深度学习·神经网络·知识图谱
菜鸟‍1 小时前
【论文学习】大语言模型(LLM)论文
论文阅读·人工智能·学习
我先去打把游戏先2 小时前
ESP32学习笔记(基于IDF):IOT应用——WIFI连接
笔记·单片机·嵌入式硬件·mcu·物联网·学习·esp32
Moniane3 小时前
Python爬虫入门:从零到数据采集
深度学习