N5 使用Gensim库训练Word2Vec模型

前言

这周学习训练一个Word2Vec模型,并进行一些基本的词向量操作。

Word2Vec 模型

Word2Vec 是一种基于神经网络的词向量表示方法,通过从大规模文本语料中学习到的词向量,捕捉词汇之间的语义关系。

训练一个Word2Vec模型

1. 导入所需的库

python 复制代码
import jieba
import jieba.analyse
import chardet
  • jieba用于中文分词。
  • chardet用于检测文件编码。
  • jieba.analyse用于关键词提取(未在本代码中使用)。

2. 添加自定义词频

python 复制代码
jieba.suggest_freq('沙瑞金', True)
# ... (其他类似的词)
jieba.suggest_freq('赵德汉', True)
  • suggest_freq方法用于调整词频,使得分词器能够更好地识别这些特定词汇。

3. 读取和分词处理文本文件

python 复制代码
result_cut = []
with open('./in_the_name_of_people.txt', 'rb') as f:
    raw_data = f.read()
    encoding = chardet.detect(raw_data)['encoding']
    lines = raw_data.decode(encoding).splitlines()
    for line in lines:
        result_cut.append(list(jieba.cut(line)))
  • 以二进制方式读取文本文件内容。
  • 使用chardet检测文件编码,并进行解码。
  • 将文本按行分割,并对每行使用jieba.cut进行分词,结果存入result_cut列表。

4. 去除停用词

python 复制代码
stopwords_list = [",", "。", "\n", "\u3000", " ", ":", "!", "?", "..."]

def remove_stopwords(ls):
    return [word for word in ls if word not in stopwords_list]

result_stop = [remove_stopwords(x) for x in result_cut if remove_stopwords(x)]
  • 定义一个停用词列表,包括常见的标点符号和空格。
  • remove_stopwords函数用于从分词结果中去除停用词。
  • 对分词结果result_cut应用remove_stopwords函数,得到result_stop

5. 训练Word2Vec模型

python 复制代码
from gensim.models import Word2Vec

model = Word2Vec(result_stop, 
                 vector_size=100, 
                 window=5, 
                 min_count=1)
  • 使用gensim库的Word2Vec模型训练词向量。
  • vector_size设置词向量的维度为100。
  • window设置上下文窗口大小为5。
  • min_count设置为1,即出现次数少于1次的词语将被忽略。

6. 计算词语相似度

python 复制代码
print(model.wv.similarity('沙瑞金', '季昌明'))
print(model.wv.similarity('沙瑞金', '田国富'))
  • 使用similarity方法计算两个词语之间的相似度。

7. 找出最相似的词

python 复制代码
for e in model.wv.most_similar(positive=['沙瑞金'], topn=5):
    print(e[0], e[1])
  • 使用most_similar方法找出与'沙瑞金'最相似的5个词语及其相似度。

8. 找出不匹配的词

python 复制代码
odd_word = model.wv.doesnt_match(["苹果", "香蕉", "橙子", "书"])
print(f"在这组词汇中不匹配的词汇:{odd_word}")
  • 使用doesnt_match方法找出列表中最不符合其余词语的词语。

9. 获取词频

python 复制代码
word_frequency = model.wv.get_vecattr("沙瑞金", "count")
print(f"沙瑞金:{word_frequency}")
  • 使用get_vecattr方法获取词语'沙瑞金'在语料中的出现次数。

结果

总结

通过Word2Vec模型,我们可以有效地捕捉词汇之间的语义关系,应用在自然语言处理任务中如文本分类、聚类和推荐系统等。

相关推荐
云空3 分钟前
《探秘MiniGPT-4:开启AI多模态新纪元》
人工智能·深度学习·神经网络
martian6653 分钟前
深入详解自然语言处理(NLP)中的语言模型:BERT、GPT及其他预训练模型的原理与应用
人工智能·自然语言处理
风采臣*⁂7 分钟前
GPT解释联合训练中的颜色映射概念
人工智能
小叮当爱咖啡30 分钟前
RNN心脏病预测-Pytorch版本
人工智能·pytorch·rnn
15年网络推广青哥31 分钟前
抖音TikTok代运营中的数据分析与优化策略是怎样的?
大数据·人工智能·数据分析
传说故事34 分钟前
CLIP代码相关问题
人工智能·python·ai·clip
B站计算机毕业设计超人36 分钟前
计算机毕业设计Python机器学习农作物健康识别系统 人工智能 图像识别 机器学习 大数据毕业设计 算法
大数据·人工智能·python·深度学习·机器学习·课程设计·数据可视化
硬件技术我知道38 分钟前
用AMIDEDOS.EXE查看和编辑计算机个性化信息
网络·人工智能·嵌入式硬件·物联网·计算机视觉·硬件工程·智慧城市
达瓦里氏1231 小时前
有机物谱图信息的速查技巧有哪些?
数据库·人工智能·化学
春末的南方城市2 小时前
Google发布图像生成新工具Whisk:无需复杂提示词,使用图像和人工智能将想法可视化并重新混合
人工智能·计算机视觉·aigc·图像生成