Self-attention与Word2Vec

星辰漫步之LLM2024-02-25 14:44

Self-attention （自注意力）和 Word2Vec 是两种不同的词嵌入技术，用于将单词映射到低维向量空间。它们之间的区别：

Word2Vec：
- Word2Vec 是一种传统的词嵌入（word embedding）方法，旨在为每个单词学习一个全局的向量表示。
- 它通过分析大量文本数据，将单词映射到一个连续的向量空间中，使得相似的单词在向量空间中距离较近。
- Word2Vec 忽略了单词在不同上下文中的含义，因此对于多义词（例如，"left"在不同语境中有不同含义）只学习了一个表示。
Self-attention：
- Self-attention 是一种用于序列数据的机制，特别在 Transformer，BERT, GPT模型中广泛应用。
- 它允许模型根据输入序列的上下文动态调整不同元素的影响。
- Self-attention 考虑了每个输入元素与其他元素之间的关联度，从而生成不同的表示。
- 在自然语言处理中，Self-attention 可以根据单词在句子中的上下文生成不同的表示（contextual embedding），解决了多义词的问题。