【Pytorch】学习记录分享8——PyTorch自然语言处理基础-词向量模型Word2Vec

【Pytorch】学习记录分享7------PyTorch自然语言处理基础-词向量模型Word2Vec

1. 词向量模型Word2Vec)

1. 如何度量这个单词的?
2.词向量是什么样子?
3.词向量对应的热力图:


4.词向量模型的输入与输出


2.如何构建训练数据

2.1 构建训练数据

类似wiki与合乎说话逻辑的文本均可以作为训练数据


2.2 不同模型对比(传入中间词预测上下文,传入上下文,预测中间词汇)

CBOW:


Skip-gram模型所需训练数据集 :

3.如何训练

3.1 如何设计驯联网络

如果一个语料库稍微大一些,可能的结果简直太多了,最后一层相当于softmax,计算起来十分耗时,有什么办法来解决嘛?

初始方案:输入两个单词,看他们是不是前后对应的输入和输出,也就相当于一个二分类任务,但是这样做之后


出发点非常好,但是此时训练集构建出来的标签全为1,无法进行较好的训练

3.2 改进方案:加入一些负样本(负采样模型)
3.3 词向量训练过程

1.初始化词向量矩阵

2.通过神经网络返向传播来计算更新,此时不光更新权重参数矩阵W,也会更新输入数据

相关推荐
Byron__11 小时前
AI学习_06_短期记忆与长期记忆
人工智能·python·学习
试剂界的爱马仕12 小时前
Anti-mouse PD-1 mAb (Clone RMP1-14) 与 Axitinib 小鼠实验使用方案整理汇总
大数据·人工智能·深度学习·学习
AI 大模型学习不踩坑12 小时前
OpenClaw 完整教程:从安装到使用(官方脚本版)
java·人工智能·神经网络·机器学习·计算机视觉·自然语言处理·openclaw
Gp7HH6hrE13 小时前
OpenAI 与 Anthropic 开放公共学习平台
人工智能·学习·chatgpt
kaixin_learn_qt_ing14 小时前
2026.7.3---学习记录
学习
99乘法口诀万物皆可变14 小时前
PcanToVectorXL_V01:打通 Vector 与 PCAN 的双向 CAN/CAN‑FD 桥梁
c++·学习
MartinYeung515 小时前
[论文学习] CAMIA:下文感知成员推理攻击
人工智能·深度学习·学习
secondyoung15 小时前
Cortex-R52学习:存储系统
arm开发·单片机·学习·arm
科技IT杂谈15 小时前
2026年智能体与定制工具平台观察:五个平台的路径与场景
学习
New农民工15 小时前
射频芯片学习-Lora包参配置
学习