SGPT论文阅读笔记

  • 这是篇想要用GPT来提取sentence embedding的工作,提出了两个框架,一个是SGPT-BE,一个是SGPT-CE,分别代表了Bi-Encoder setting和Cross-Encoder setting。
  • CE的意思是在做阅读理解任务时,document和query是一起送进去,中间加个SEP token来做的,典型的是BERT。而GPT一般不是,但作者觉得GPT也可以是。也就是说,如果有k个document和一个新的query,需要把这个query和这k个document分别concate在一起,重新提取信息,走k次。
  • 而BE的意思是,document和query单独提取信息。每段document用pooling来提取一个vector即可,query单独提取一个vector,然后算相似度,就能知道document中是否有query要的信息。
  • BE的模型提出了新的pooling method,用的是position-weighted mean pooling,还有bias-only fine-tuning。
  • position-weighted mean pooling的意思是,前面的token由于mask的存在,注意力的时候看不到后面的token,所以要给低一点的权重,后面的token给高一点的权重,就按1 2 3 4 5这样随位置单调线性递增的权重即可,如下:
相关推荐
boooo_hhh3 分钟前
第35周—————糖尿病预测模型优化探索
pytorch·深度学习·机器学习
给自己记录用43 分钟前
qt笔记(1)——Qtablewidget使用
笔记·qt
飞升不如收破烂~44 分钟前
英语学习笔记2.0
笔记·学习
金色光环1 小时前
概率论:理解区间估计【超详细笔记】
笔记·数学·概率论·数理统计·区间估计
大佐不会说日语~1 小时前
JVM垃圾回收机制面试笔记
jvm·笔记·面试
张较瘦_2 小时前
[论文阅读] 人工智能 | 5C提示词框架的研究
论文阅读·人工智能
大千AI助手2 小时前
RLHF:人类反馈强化学习 | 对齐AI与人类价值观的核心引擎
人工智能·深度学习·算法·机器学习·强化学习·rlhf·人类反馈强化学习
梁辰兴2 小时前
企业培训笔记:Vue3前端框架配置
笔记·前端框架·npm·vue·vue3·node
仗剑_走天涯9 小时前
基于pytorch.nn模块实现线性模型
人工智能·pytorch·python·深度学习
陈洪奇9 小时前
注册中心学习笔记整理
笔记·学习