Word2Vec介绍

Word2Vec的实现说明及代码示例,涵盖原理概述、使用Gensim的实践示例,以及关键步骤的底层实现思路。

一、Word2Vec 原理概述

Word2Vec 是一种将词语映射为稠密向量的浅层神经网络模型,主要包含两种架构:

  1. CBOW(Continuous Bag of Words):通过上下文词预测目标词。
  2. Skip-gram:通过目标词预测上下文词。

核心目标:通过训练使语义相似的词在向量空间中距离更近。

关键技术

  • 负采样(Negative Sampling):代替传统Softmax,加速训练。
  • Hierarchical Softmax:另一种优化输出层计算的方法。

二、使用 Gensim 实现 Word2Vec

1. 安装 Gensim
复制代码

Bash

pip install gensim

2. 代码示例
复制代码

Python

from gensim.models import Word2Vec from gensim.utils import simple_preprocess # 示例文本数据 corpus = [ "cat sits on the mat", "dog barks at the cat", "cat drinks milk" ] # 文本分词和预处理 sentences = [simple_preprocess(doc) for doc in corpus] # 训练 Skip-gram 模型 model = Word2Vec( sentences=sentences, vector_size=100, # 词向量维度 window=5, # 上下文窗口大小 min_count=1, # 忽略低频词 workers=4, # 线程数 sg=1 # sg=1 表示 Skip-gram ) # 获取词向量 print(model.wv['cat']) # 查找相似词 print(model.wv.most_similar('cat'))

3. 输出示例
复制代码

0.123, -0.456, 0.789, ... # 'cat' 的词向量 ('milk', 0.85), ('sits', 0.79), ... # 与 'cat' 相似的词

三、实现细节解析

1. 数据预处理
  • 分词 :将文本拆分为词语列表(如 ["cat", "sits", ...])。
  • 构建词汇表:统计词频并分配唯一索引。
2. 生成 Skip-gram 样本
复制代码

Python

def generate_skip_grams(sentence, window_size=2): skip_grams = [] for i, target in enumerate(sentence): # 提取上下文词 context = sentence[max(0, i - window_size):i] + \ sentence[i+1:i+window_size+1] for context_word in context: skip_grams.append((target, context_word)) return skip_grams # 示例 sentence = ["cat", "sits", "on", "mat"] print(generate_skip_grams(sentence)) # 输出: [('sits', 'cat'), ('sits', 'on'), ('on', 'sits'), ('on', 'mat'), ...]

3. 模型结构(Skip-gram + 负采样)
  • 输入层:目标词的 One-Hot 向量(维度 V)。
  • 隐藏层:词向量矩阵(维度 V×N)。
  • 输出层:通过负采样计算上下文词的概率。
4. 负采样实现
  • 对每个正样本(目标词,上下文词),随机采样 K 个负样本(目标词,噪声词)。
  • 使用 Sigmoid 作为二分类损失函数。

四、手动实现(PyTorch 示例)

1. 模型定义
复制代码

Python

import torch import torch.nn as nn class SkipGram(nn.Module): def __init__(self, vocab_size, embedding_dim): super().__init__() self.embed = nn.Embedding(vocab_size, embedding_dim) self.linear = nn.Linear(embedding_dim, vocab_size) def forward(self, x): x = self.embed(x) # (batch_size, embedding_dim) x = self.linear(x) # (batch_size, vocab_size) return x

2. 训练步骤
  • 数据加载:将生成的 Skip-gram 对转换为词索引。
  • 损失函数 :使用 nn.CrossEntropyLoss() 或自定义负采样损失。
  • 优化器:SGD 或 Adam。

五、总结

  • Gensim:适合快速实现和部署,内置高效优化(如负采样)。
  • 手动实现:有助于理解底层原理,但需处理细节(如梯度更新、采样策略)。
  • 扩展方向 :尝试调整 vector_sizewindow 参数,或探索 CBOW 架构(设置 sg=0)。
相关推荐
happyprince21 小时前
17-Hugging Face Transformers之BERT 案例详解:Transformers 框架全模块串联
人工智能·深度学习·bert
日光明媚21 小时前
从代码的角度解读DMD2
人工智能·深度学习·机器学习·stable diffusion·aigc
weixin_4684668521 小时前
UNet 模型结构从零搭建与实战解析
人工智能·深度学习·算法·机器学习·ai·unet
装不满的克莱因瓶1 天前
基于 Python 进行二维空间线性可分数据单/多层感知器实战
人工智能·python·深度学习·神经网络·ai·卷积
keyanbanyungong1 天前
没预实验怎么申课题?
人工智能·深度学习
好评笔记1 天前
深度学习面试八股——循环神经网络RNN
人工智能·rnn·深度学习·神经网络·算法·机器学习·aigc
装不满的克莱因瓶1 天前
深度学习优化:使用深层神经网络来解决复杂任务
人工智能·python·深度学习·神经网络·机器学习·ai
The moon forgets1 天前
DreamVLA:世界知识驱动的视觉-语言-动作新范式
人工智能·pytorch·python·深度学习·具身智能·vla
卡梅德生物科技小能手1 天前
卡美德生物科普:LINGO-1(神经修复关键负向调控因子)
人工智能·经验分享·深度学习
【建模先锋】1 天前
创新升级!从 Conditional DCGAN 到 Conditional WGAN-GP:小样本故障诊断生成增强再进阶
深度学习·生成对抗网络·信号处理·故障诊断·小样本·轴承故障诊断·样本生成