SGPT论文阅读笔记

  • 这是篇想要用GPT来提取sentence embedding的工作,提出了两个框架,一个是SGPT-BE,一个是SGPT-CE,分别代表了Bi-Encoder setting和Cross-Encoder setting。
  • CE的意思是在做阅读理解任务时,document和query是一起送进去,中间加个SEP token来做的,典型的是BERT。而GPT一般不是,但作者觉得GPT也可以是。也就是说,如果有k个document和一个新的query,需要把这个query和这k个document分别concate在一起,重新提取信息,走k次。
  • 而BE的意思是,document和query单独提取信息。每段document用pooling来提取一个vector即可,query单独提取一个vector,然后算相似度,就能知道document中是否有query要的信息。
  • BE的模型提出了新的pooling method,用的是position-weighted mean pooling,还有bias-only fine-tuning。
  • position-weighted mean pooling的意思是,前面的token由于mask的存在,注意力的时候看不到后面的token,所以要给低一点的权重,后面的token给高一点的权重,就按1 2 3 4 5这样随位置单调线性递增的权重即可,如下:
相关推荐
风指引着方向9 分钟前
动态形状算子支持:CANN ops-nn 的灵活推理方案
人工智能·深度学习·神经网络
QT.qtqtqtqtqt15 分钟前
uni-app小程序前端开发笔记(更新中)
前端·笔记·小程序·uni-app
魔乐社区25 分钟前
MindSpeed LLM适配Qwen3-Coder-Next并上线魔乐社区,训练推理教程请查收
人工智能·深度学习·机器学习
EmbedLinX32 分钟前
嵌入式之协议解析
linux·网络·c++·笔记·学习
凉、介34 分钟前
VMware 三种网络模式(桥接 / NAT / Host-Only)原理与实验解析
c语言·网络·笔记·操作系统·嵌入式·vmware
Aliex_git43 分钟前
跨域请求笔记
前端·网络·笔记·学习
ccLianLian1 小时前
计算机基础·cs336·损失函数,优化器,调度器,数据处理和模型加载保存
人工智能·深度学习·计算机视觉·transformer
2501_901147831 小时前
面试必看:优势洗牌
笔记·学习·算法·面试·职场和发展
聆风吟º1 小时前
CANN runtime 性能优化:异构计算下运行时组件的效率提升与资源利用策略
人工智能·深度学习·神经网络·cann
一山秋叶1 小时前
带分数正则的一致性蒸馏
人工智能·深度学习