Self-attention与Word2Vec

Self-attention (自注意力)和 Word2Vec 是两种不同的词嵌入技术,用于将单词映射到低维向量空间。它们之间的区别:

  1. Word2Vec

    • Word2Vec 是一种传统的词嵌入(word embedding)方法,旨在为每个单词学习一个全局的向量表示。
    • 它通过分析大量文本数据,将单词映射到一个连续的向量空间中,使得相似的单词在向量空间中距离较近。
    • Word2Vec 忽略了单词在不同上下文中的含义,因此对于多义词(例如,"left"在不同语境中有不同含义)只学习了一个表示。
  2. Self-attention

    • Self-attention 是一种用于序列数据的机制,特别在 Transformer,BERT, GPT模型中广泛应用。
    • 它允许模型根据输入序列的上下文动态调整不同元素的影响。
    • Self-attention 考虑了每个输入元素与其他元素之间的关联度,从而生成不同的表示。
    • 在自然语言处理中,Self-attention 可以根据单词在句子中的上下文生成不同的表示(contextual embedding),解决了多义词的问题。

总之,Word2Vec 是一种全局的词嵌入方法,而Self-attention 允许根据上下文动态生成不同的表示,更适合处理多义词和序列数据。

相关推荐
狮子座明仔6 小时前
Engram:DeepSeek提出条件记忆模块,“查算分离“架构开启LLM稀疏性新维度
人工智能·深度学习·语言模型·自然语言处理·架构·记忆
Coovally AI模型快速验证12 小时前
仅192万参数的目标检测模型,Micro-YOLO如何做到目标检测精度与效率兼得
人工智能·神经网络·yolo·目标检测·计算机视觉·目标跟踪·自然语言处理
Hcoco_me14 小时前
大模型面试题71: DPO有什么缺点?后续对DPO算法有哪些改进?
人工智能·深度学习·算法·自然语言处理·transformer·vllm
跳跳糖炒酸奶14 小时前
第十二章、GPT2:Language Models are Unsupervised Multitask Learners(理论部分)
人工智能·语言模型·自然语言处理·llm·transformers·gpt2
缘友一世15 小时前
Qwen GSPO算法的深入学习和理解
llm·gspo·大模型强化学习·lrm
来两个炸鸡腿15 小时前
【Datawhale组队学习202601】Base-NLP task01 注意力机制与Transformer
学习·自然语言处理·transformer
aopstudio15 小时前
如何优雅地下载 Hugging Face 模型
自然语言处理·大语言模型·huggingface
山顶夕景15 小时前
【LLM】deepseek之Engram模型(增加条件记忆模块)
llm·moe·知识检索·engram
爱听歌的周童鞋16 小时前
斯坦福大学 | CS336 | 从零开始构建语言模型 | Spring 2025 | 笔记 | Assignment 1: BPE Tokenizer
llm·assignment·cs336·bpe tokenizer
知识图谱LLM17 小时前
【关于多模态情感识别数据集的报告】
人工智能·自然语言处理·语音识别