深度学习:词嵌入embedding和Word2Vec

目录

前言

一、词嵌入(Embedding)

1.传统自然语言处理问题

2.什么是词嵌入

二、Word2vec模型

1.Word2Vec的基本原理

三、CBOW模型训练过程


前言

在机器学习里的自然语言处理,是将语料库中的词语转换成词向量矩阵,再使用朴素贝叶斯算法对其进行预测。这篇文章要讲的是深度学习里关于自然语言处理的一些概念

一、词嵌入(Embedding)

1.传统自然语言处理问题

  • 早期的模型没有考虑到词序和上下文关系,使得模型无法捕捉句子中词之间更复杂的语义联系
  • 某些传统算法可能需要大量的计算和存储资源,影响其可扩展性

例如:

  1. 一个语料库4960个词语
  2. 每个词语的独热编码都是4959个0和1个1按顺序组成
  3. 第一个词语就是[000000...0001],第二个[0000...0010],依此类推
  4. 将其转换成词向量矩阵就是(4960*4960)
  5. 每一行数据就是一个词
  6. 如果语料库很大,那么就会出现维度灾难
  7. 使用词嵌入解决这种情况

2.什么是词嵌入

例如将一个词向量为(1*4960)的词语乘以一个(4960*300)的矩阵,将其变成(1*300)的词向量矩阵,从而达到降维的目的,解决了维度灾难。

二、Word2vec模型

  • Word2Vec是由Google的研究团队提出的一种用于词嵌入的模型,旨在将单词转换为向量,以便于计算机理解和处理自然语言。
  • 它能够捕捉词与词之间的语义关系,并在许多自然语言处理任务中得到了广泛应用。

1.Word2Vec的基本原理

连续词袋模型(CBOW):

  1. 目标是在给定上下文(周围词)的情况下预测中心词。
  2. 例如,在句子"我喜欢学习"中,如果上下文是"我"和"学习",模型的目标是预测"喜欢"。
  3. 即输入"我"、"学习"的独热编码,"喜欢"当做被预测的值

跳字模型(Skip-gram):

  1. 目标是根据中心词预测其上下文。
  2. 例如,在句子"我喜欢学习"中,如果中心词是"喜欢",模型的目标是预测"我"和"学习"。
  3. 输入"喜欢"的独热编码,"我"、"学习"当做被预测的值

三、CBOW模型训练过程

  1. 当前词的上下文词语的one-hot编码输入到输入层。
  2. 这些词分别乘以同一个矩阵W(V*N)后分别得到各自的1*N 向量。
  3. 将多个这些1*N 向量取平均为一个1*N 向量。
  4. 将这个1*N 向量乘矩阵 W'(N*V) ,变成一个1*V 向量。
  5. 将1*V 向量softmax归一化后输出取每个词的概率向量1*V
  6. 概率值最大 的数对应的词作为预测词
  7. 将预测的结果1*V 向量和真实标签1*V 向量(真实标签中的V个值中有一个是1,其他是0)计算误差
  8. 在每次前向传播之后反向传播误差,不断调整 W(V*N)和 W'(N*V)矩阵的值。

拿一个词语为4960个的语料库来举例,使用CBOW模型完成词嵌入:

  1. 假设选取上下各选两个词语,输入层每一个神经元接收一个词语的独热编码,然后将其乘以第一个权重w1(4960*300)的矩阵,将结果(1*300)的矩阵传入中间层
  2. 中间层将输入层传入的四个结果组合成一个(4*300)的矩阵,然后再对每一列进行求和得到(1*300)的矩阵,将该矩阵传入输出层
  3. 输出层接收到输入层传入的(1*300)的矩阵,将其乘以第二个权重w2(300*4960)的矩阵,得到(1*4960)的矩阵,每一行就是每个词语的预测结果
  4. 对矩阵进行归一化,得到的每一行都是一个词语的概率值
  5. 概率值最大的即为预测词
  6. 然后将该词的预测结果与真实标签进行误差计算
  7. 在每次前向传播之后反向传播误差,不断调整w1和w2的值
相关推荐
Hcoco_me1 分钟前
大模型面试题34:Transformer的Encoder和Decoder区别与协作
人工智能·rnn·深度学习·lstm·transformer·word2vec
dhdjjsjs5 分钟前
Day56 PythonStudy
人工智能·深度学习·机器学习
是毛毛吧7 分钟前
AI开发工具----碾压 Bolt.new?Lovable:全栈开发的下一个“卷王”级神器深度评测
人工智能·开源·github
hk112410 分钟前
【Algo/Forensics】2026年度无损压缩算法与高阶网络取证基准索引 (Benchmark Index)
大数据·算法·网络安全·系统架构·数据集
weixin_4379881213 分钟前
范式智能+壁仞科技|完成百余款模型适配 性能优势显著
人工智能·科技
CoovallyAIHub18 分钟前
2026计算机视觉如何将海量图像数据转化为商业价值与竞争优势?边缘计算?多模态AI?合成数据?
深度学习·算法·计算机视觉
技术狂人16818 分钟前
(三)模型微调技术 20 题!LoRA/Q-LoRA/PPO/DPO 落地细节,面试说清微调全流程(实战篇)
人工智能·深度学习·算法·nlp
hetao173383718 分钟前
2026-01-03 水水的省选模拟赛 Day 1 hetao1733837 的刷题记录
c++·笔记·算法
好想写博客20 分钟前
[动态规划]斐波那契数列
c++·算法·leetcode·动态规划
闻缺陷则喜何志丹28 分钟前
【二分查找】P9822 [ICPC2020 Shanghai R] Walker【有误差】|普及
开发语言·算法·r语言