LLM - 词向量 Word2vec

  1. 词向量是一个词的低维表示,词向量可以反应语言的一些规律,词意相近的词向量之间近乎于平行。
  1. 词向量的实现:

(1)首先使用滑动窗口来构造数据,一个滑动窗口是指在一段文本中连续出现的几个单词,这样的单词构成一个窗口。在这个窗口中最中间的词叫做目标词(Target), 其他的词称为上下文词(Context)。

(2)根据上下文词(Context)预测目标词(Target)的神经网络模型叫做CBOW模型。

(3)根据目标词(Target)预测上下文词(Context)的神经网络模型叫做Skip-Gram模型。

  1. CBOW模型示意:用never和late预测中间词too的过程。

(1)首先将never,late表示成onehot向量.

(2)其次用这两个onehot向量在最终要训练的词向量矩阵中,找到never,late对应的词向量。然后把它们加起来做平均,这样可以得到一个临时的词向量,维度和前面两个相同。

(3)用上面得到的临时词向量对词表中每个词做点乘,得到n个输出,n是词表大小。

(4)对n个输出做softmax,得到每个词分类概率分布。

  1. Skip-Gram模型示意:例子目标词是Never,要预测出too,late,to, learn。过程是先让模型去预测P(too/Never), 然后再预测P(late/Never)...

https://arxiv.org/abs/1301.3781

相关推荐
老蒋新思维11 分钟前
从「流量算法」到「增长算法」:AI智能体如何重构企业增长的内在逻辑
大数据·网络·人工智能·重构·创始人ip·创客匠人·知识变现
苍何11 分钟前
在全世界都教你做小红书图片的时候,我基于秒哒Pro做了个一键生成的网站。
人工智能
苍何12 分钟前
用即梦视频3.5pro复刻爆款AI探班视频,直接发现一个AI片场!
人工智能
dulu~dulu13 分钟前
机器学习题目总结(一)
人工智能·神经网络·决策树·机器学习·学习笔记·线性模型·模型评估与选择
苍何25 分钟前
免费!漫画 PPT + 全文档讲解,这谁顶得住啊。。。
人工智能
苍何27 分钟前
用 LiblibAI 做爆款动态海报,绝了!(附教程)
人工智能
翔云 OCR API30 分钟前
承兑汇票识别接口技术解析与应用实践
开发语言·人工智能·python·计算机视觉·ocr
苍何37 分钟前
终于找到可以一键做 AI 漫剧的方法了
人工智能
Parasoft中国38 分钟前
聚焦汽车网安落地!2026汽车网络安全标准及应用研讨会
人工智能·测试工具·安全·web安全·汽车
五度易链-区域产业数字化管理平台41 分钟前
大数据与 AI 赋能招商全流程:五度易链平台的技术架构与实践应用解析
大数据·人工智能