【Pytorch】学习记录分享8——PyTorch自然语言处理基础-词向量模型Word2Vec

【Pytorch】学习记录分享7------PyTorch自然语言处理基础-词向量模型Word2Vec

1. 词向量模型Word2Vec)

1. 如何度量这个单词的?
2.词向量是什么样子?
3.词向量对应的热力图:


4.词向量模型的输入与输出


2.如何构建训练数据

2.1 构建训练数据

类似wiki与合乎说话逻辑的文本均可以作为训练数据


2.2 不同模型对比(传入中间词预测上下文,传入上下文,预测中间词汇)

CBOW:


Skip-gram模型所需训练数据集 :

3.如何训练

3.1 如何设计驯联网络

如果一个语料库稍微大一些,可能的结果简直太多了,最后一层相当于softmax,计算起来十分耗时,有什么办法来解决嘛?

初始方案:输入两个单词,看他们是不是前后对应的输入和输出,也就相当于一个二分类任务,但是这样做之后


出发点非常好,但是此时训练集构建出来的标签全为1,无法进行较好的训练

3.2 改进方案:加入一些负样本(负采样模型)
3.3 词向量训练过程

1.初始化词向量矩阵

2.通过神经网络返向传播来计算更新,此时不光更新权重参数矩阵W,也会更新输入数据

相关推荐
fictionist1 分钟前
动态 Web 开发技术入门篇
java·服务器·开发语言·笔记·学习·mysql·spring
no_work1 小时前
深度学习小项目合集之音频语音识别-视频介绍下自取
pytorch·深度学习·cnn·音视频·语音识别·梅卡尔
恰薯条的屑海鸥1 小时前
零基础学前端-传统前端开发(第三期-CSS介绍与应用)
前端·css·学习·css3·前端开发·前端入门·前端教程
阑梦清川2 小时前
国防科技大学计算机基础慕课课堂学习笔记
笔记·学习·数学建模
水水沝淼㵘3 小时前
嵌入式开发学习日志(数据库II && 网页制作)Day38
服务器·c语言·网络·数据结构·数据库·学习
守护者1703 小时前
JAVA学习-练习试用Java实现“一个词频统计工具 :读取文本文件,统计并输出每个单词的频率”
java·学习
不太可爱的叶某人4 小时前
【学习笔记】深入理解Java虚拟机学习笔记——第3章 垃圾收集器与内存分配策略
java·笔记·学习
Chef_Chen4 小时前
从0开始学习R语言--Day21--Kruskal-Wallis检验与Friedman检验
学习
新中地GIS开发老师5 小时前
2025武汉考研形势分析,趋势、挑战与应对策略
学习·考研·arcgis·大学生·gis开发·webgis·地理信息科学
StackOverthink5 小时前
PyTorch:让深度学习像搭积木一样简单!!!
人工智能·pytorch·深度学习·其他