LLM - 词向量 Word2vec

  1. 词向量是一个词的低维表示,词向量可以反应语言的一些规律,词意相近的词向量之间近乎于平行。
  1. 词向量的实现:

(1)首先使用滑动窗口来构造数据,一个滑动窗口是指在一段文本中连续出现的几个单词,这样的单词构成一个窗口。在这个窗口中最中间的词叫做目标词(Target), 其他的词称为上下文词(Context)。

(2)根据上下文词(Context)预测目标词(Target)的神经网络模型叫做CBOW模型。

(3)根据目标词(Target)预测上下文词(Context)的神经网络模型叫做Skip-Gram模型。

  1. CBOW模型示意:用never和late预测中间词too的过程。

(1)首先将never,late表示成onehot向量.

(2)其次用这两个onehot向量在最终要训练的词向量矩阵中,找到never,late对应的词向量。然后把它们加起来做平均,这样可以得到一个临时的词向量,维度和前面两个相同。

(3)用上面得到的临时词向量对词表中每个词做点乘,得到n个输出,n是词表大小。

(4)对n个输出做softmax,得到每个词分类概率分布。

  1. Skip-Gram模型示意:例子目标词是Never,要预测出too,late,to, learn。过程是先让模型去预测P(too/Never), 然后再预测P(late/Never)...

https://arxiv.org/abs/1301.3781

相关推荐
跨境猫小妹1 分钟前
亚马逊合规新纪元:隐形战场里,谁在悄悄出局?
大数据·人工智能·产品运营·跨境电商·防关联
合方圆~小文6 分钟前
不同画面,三个镜头实时监控拍摄方案
数据结构·数据库·人工智能
lx74160269820 分钟前
change clip架构学习
人工智能·学习·计算机视觉
玄微云25 分钟前
AI智能体开发公司推荐:玄微科技专注垂直场景的实践者
大数据·人工智能·软件需求
谷粒.1 小时前
测试数据管理难题的7种破解方案
运维·开发语言·网络·人工智能·python
一RTOS一1 小时前
“智”赋百业 | 东土科技:为工业人工智能铸造“中国根系”
人工智能·科技
周周爱喝粥呀1 小时前
向量检索:AI 是如何进行语义匹配的?
人工智能
会挠头但不秃1 小时前
2.逻辑回归模型
算法·机器学习·逻辑回归
深蓝电商API1 小时前
爬虫+大模型结合:让AI自动写XPath和清洗规则
人工智能·爬虫
WebGoC开发者2 小时前
【备赛指导】佛山市青少年科技创新大赛暨佛山市青少年人工智能科创节 智趣AI竞技赛 流程详解
人工智能·经验分享·科技·ai·青少年科技竞赛