Repetition Improves Language Model Embeddings论文阅读笔记

  • 文章提出了一种提高decoder-only LLM的embedding能力的方法,叫echo embeddings
  • last-token pooling(即直接选最后一个token作为句子的embedding)和直接mean pooling都不如文章提出的echo embedding,做法是把句子重复两次,然后取第二次的token是的mean pooling。mean pooling的缺点是太强调句子的前面部分,last-token pooling是太强调句子的后面部分,而重复两次后,第二次的句子的起始token也包含了完整句子的语义,从而不会出现直接mean pooling的问题。
  • 另外一点是,输入要添加一些instruction以鼓励第二次的句子编码包含完整句子信息,如下:
相关推荐
Wilber的技术分享2 小时前
【LeetCode高频手撕题 2】面试中常见的手撕算法题(小红书)
笔记·算法·leetcode·面试
reesn2 小时前
qwen3.5 0.8B纠正任务实践
人工智能·语言模型
愚昧之山绝望之谷开悟之坡2 小时前
合格境外投资者
笔记
剑穗挂着新流苏3123 小时前
203_深度学习的第一步:线性回归模型与 SGD 优化算法实战
人工智能·深度学习·机器学习
是枚小菜鸡儿吖3 小时前
卷不动了?带你拆解 2026 深度学习核心版图:CNN、Transformer 与扩散模型的实战进化
深度学习·cnn·transformer
靴子学长4 小时前
Decoder only 架构下 - KV cache 的理解
pytorch·深度学习·算法·大模型·kv
刘简爱学习4 小时前
弱监督互斥多类脑肿瘤图像分割的类间可分离性损失
人工智能·深度学习·计算机视觉
寒秋花开曾相惜4 小时前
(学习笔记)3.8 指针运算(3.8.3 嵌套的数组& 3.8.4 定长数组)
java·开发语言·笔记·学习·算法
我叫张小白。5 小时前
Dify系列(一):平台安装部署+界面操作
docker·ai·语言模型·大模型·dify·智能体
_李小白5 小时前
【AI大模型学习笔记之平台篇】第五篇:Trae常用模型介绍与性能对比
人工智能·笔记·学习