【Pytorch】学习记录分享8——PyTorch自然语言处理基础-词向量模型Word2Vec

【Pytorch】学习记录分享7------PyTorch自然语言处理基础-词向量模型Word2Vec

1. 词向量模型Word2Vec)

1. 如何度量这个单词的?
2.词向量是什么样子?
3.词向量对应的热力图:


4.词向量模型的输入与输出


2.如何构建训练数据

2.1 构建训练数据

类似wiki与合乎说话逻辑的文本均可以作为训练数据


2.2 不同模型对比(传入中间词预测上下文,传入上下文,预测中间词汇)

CBOW:


Skip-gram模型所需训练数据集 :

3.如何训练

3.1 如何设计驯联网络

如果一个语料库稍微大一些,可能的结果简直太多了,最后一层相当于softmax,计算起来十分耗时,有什么办法来解决嘛?

初始方案:输入两个单词,看他们是不是前后对应的输入和输出,也就相当于一个二分类任务,但是这样做之后


出发点非常好,但是此时训练集构建出来的标签全为1,无法进行较好的训练

3.2 改进方案:加入一些负样本(负采样模型)
3.3 词向量训练过程

1.初始化词向量矩阵

2.通过神经网络返向传播来计算更新,此时不光更新权重参数矩阵W,也会更新输入数据

相关推荐
失散1327 分钟前
自然语言处理——02 文本预处理(下)
人工智能·自然语言处理
CCCC13101631 小时前
嵌入式学习(day 28)线程
jvm·学习
星星火柴9362 小时前
关于“双指针法“的总结
数据结构·c++·笔记·学习·算法
小狗爱吃黄桃罐头2 小时前
正点原子【第四期】Linux之驱动开发篇学习笔记-1.1 Linux驱动开发与裸机开发的区别
linux·驱动开发·学习
艾莉丝努力练剑3 小时前
【洛谷刷题】用C语言和C++做一些入门题,练习洛谷IDE模式:分支机构(一)
c语言·开发语言·数据结构·c++·学习·算法
武昌库里写JAVA4 小时前
JAVA面试汇总(四)JVM(一)
java·vue.js·spring boot·sql·学习
杜子不疼.4 小时前
《Python学习之字典(一):基础操作与核心用法》
开发语言·python·学习
小幽余生不加糖4 小时前
电路方案分析(二十二)适用于音频应用的25-50W反激电源方案
人工智能·笔记·学习·音视频
..过云雨5 小时前
01.【数据结构-C语言】数据结构概念&算法效率(时间复杂度和空间复杂度)
c语言·数据结构·笔记·学习
myzzb5 小时前
基于uiautomation的自动化流程RPA开源开发演示
运维·python·学习·算法·自动化·rpa