NV-Embed论文阅读笔记

  • 这是NVIDIA的一篇论文,LLM通常使用的是GPT的decoder范式作为一个生成模型,文章探讨如何利用这样的decoder生成模型来实现BERT这样的encoder的功能,即提取有效的embedding。
  • 现有的方法提取embedding的方式无非是 1 mean pooling; 2 the last token embedding。前者是encoder-like的model用得多,后者是decoder-like的model用得多。然而这两者都有问题。
  • 文章提出的方法是,decoder模型正常是会通过循环的方式生成一段序列嘛,最后一个time step的一层的Q就是 l × d l\times d l×d的, l l l个token每个 d d d维,然后我预定义一个latent array,是 r × d r\times d r×d的,它作为 r r r个token的K和V,用来和Q算attention(实际上做的是多头注意力,这里简单起见按单头注意力讲解),得到 O O O是 l × d l\times d l×d的,再接MLP GELU MLP,再过一个mean pooling,得到最终的embedding。
  • 文章一边说train from scratch,又说用LoRA,就很奇怪。
  • 另外呢,文章把mask去掉了,之前的GPT,每个token做注意力只能看到前面的token,但文章发现直接全都看得到在提取embedding方面效果更好:
  • 文章试验了bidirect attention/causal attention的对比,EOS Mean latent-attention self-attention的对比:
相关推荐
freexyn15 小时前
Matlab自学笔记六十九:多项式求值、求根、积分和求导
开发语言·笔记·matlab
子午15 小时前
【鱼类识别系统】Python+TensorFlow+Django+人工智能+深度学习+卷积神经网络算法+resnet50
人工智能·python·深度学习
摇滚侠15 小时前
2025最新 SpringCloud 教程,Gateway-路由-工作原理,笔记54
笔记·spring cloud·gateway
CV爱数码15 小时前
【宝藏数据集】MCOD:多光谱伪装目标检测首个挑战性基准
人工智能·深度学习·目标检测·计算机视觉·目标跟踪·数据集
chenzhou__15 小时前
LinuxC语言并发程序笔记补充
linux·c语言·数据库·笔记·学习·进程
YJlio15 小时前
LogonSessions 学习笔记(9.17):会话枚举与凭据审计
人工智能·笔记·学习
带刺的坐椅15 小时前
Solon AI 开发学习13 - chat - Tool的输入输出架构及生成类
ai·chatgpt·llm·solon·mcp
被遗忘的旋律.15 小时前
Linux驱动开发笔记(二十二)——多点电容触摸屏
linux·驱动开发·笔记
TL滕15 小时前
从0开始学算法——第七天(快速排序算法练习)
笔记·学习·算法·排序算法
JeffDingAI15 小时前
【MindSpore社区活动】在对抗中增强网络实践
python·深度学习·gan