第N7周:调用Gensim库训练Word2Vec模型

一、准备工作

1.安装Gensim库

Gensim是在做自然语言处理 时较为经常用到的一个工具库,主要用来以无监督的方式从原始的非结构化文本当中来学习到文本隐藏层的主题向量表达。

主要包括TF-IDF,LSA,LDA,word2vec,doc2vec等多种模型。

2.对原始语料分词

选择《人民的名义》的小说原文作为语料,先采用jieba进行分词。这里是直接添加的自定义词汇,没有选择创建自定义词汇文件。

python 复制代码
import jieba
import jieba.analyse
jieba.suggest_freq('沙瑞金',True)# 加入一些词,使得jieba分词准确率更高
jieba.suggest_freq('田国富',True)
jieba.suggest_freq('高育良',True)
jieba.suggest_freq('侯亮平',True)
jieba.suggest_freq('钟小艾',True)
jieba.suggest_freq('陈岩石',True)
jieba.suggest_freq('欧阳菁',True)
jieba.suggest_freq('易学习',True)
jieba.suggest_freq('王大路',True)
jieba.suggest_freq('蔡成功',True)
jieba.suggest_freq('孙连城',True)
jieba.suggest_freq('季昌明',True)
jieba.suggest_freq('丁义珍',True)
jieba.suggest_freq('郑西坡',True)
jieba.suggest_freq('赵东来',True)
jieba.suggest_freq('高小琴',True)
jieba.suggest_freq('赵瑞龙',True)
jieba.suggest_freq('林华华',True)
jieba.suggest_freq('陆亦可',True)
jieba.suggest_freq('刘新建',True)
jieba.suggest_freq('刘庆祝',True)
jieba.suggest_freq('赵德汉',True)

with open('F:/jupyter lab/DL-100-days/datasets/NLP/in_the_name_of_people.txt', encoding='utf-8') as f:
    result_cut= []
    lines =f.readlines()
    for line in lines:
        result_cut.append(list(jieba.cut(line)))
        
f.close()
python 复制代码
#添加自定义停用词
stopwords_list =[",","。","\n","\u3000"," ",":","!","?","..."]

def remove_stopwords(ls):#去除停用词
    return [word for word in ls if word not in stopwords_list]
    
result_stop=[remove_stopwords(x) for x in result_cut if remove_stopwords(x)]

拿到了分词后的文件,在一般的NLP处理中,会需要去停用词。由于word2vec的算法依赖于上下文而上下文有可能就是停词。因此对于word2vec,我们可以不用去停词,仅仅去掉一些标点符号,做一个简单的数据清洗。

现在我们可以直接读分词后的文件到内存。这里使用了word2vec提供的LineSentence类来读文件然后套用word2vec的模型。在实际应用中,可以调参提高词的embedding的效果

python 复制代码
print(result_stop[100:103])

二、训练Word2Vec

python 复制代码
from gensim.models import Word2Vec

model = Word2Vec(result_stop,      #用于训练的语料数据
                 vector_size=100,  #是指特征向量的维度,默认为100。
                 window=5,         #一个句子中当前单词和被预测单词的最大距离。
                 min_count=1)      #可以对字典做截断,词频少于mincount次数的单词会被丢弃掉,

三、模型应用

1.计算词汇相似度
python 复制代码
#计算两个词的相似度
print(model.wv.similarity('沙瑞金','季昌明'))
print(model.wv.similarity('沙瑞金','田国富'))
复制代码
0.9994106
0.99951524
python 复制代码
#选出最相似的5个词
for e in model.wv.most_similar(positive=['沙瑞金'],topn=5):
    print(e[0],e[1])
复制代码
这位 0.999855637550354
干部 0.999782383441925
做 0.9997743368148804
刘新建 0.9997636675834656
大 0.9997599720954895
2.找出不匹配的词汇
python 复制代码
odd_word = model.wv.doesnt_match(["苹果","香蕉","橙子","书"])
print(f"在这组词汇中不匹配的词汇:{odd_word}")
3.计算词汇的词频
python 复制代码
word_frequency = model.wv.get_vecattr("沙瑞金","count")
print(f"沙瑞金:{word_frequency}")

四、学习心得

本周调用Gensim库训练Word2Vec模型,首先是安装Gensim库,随后进行分词和训练。通过分词可以对数据进行更好地区分。随后对Word2Vec进行训练,随之应用。

相关推荐
居然JuRan2 分钟前
解锁GraphRAG:大模型背后的高效工作流
人工智能
牛客企业服务4 分钟前
2025校招AI应用:校园招聘的革新与挑战
大数据·人工智能·机器学习·面试·职场和发展·求职招聘·语音识别
shilim4 分钟前
这位老哥提交了一个12万行代码的PR,程序员看了都说LGTM
人工智能·github·代码规范
倔强青铜三4 分钟前
苦练Python第38天:input() 高级处理,安全与异常管理
人工智能·python·面试
计算机科研圈10 分钟前
不靠海量数据,精准喂养大模型!上交Data Whisperer:免训练数据选择法,10%数据逼近全量效果
人工智能·深度学习·机器学习·llm·ai编程
大模型真好玩14 分钟前
深入浅出LangChain AI Agent智能体开发教程(六)—两行代码LangChain Agent API快速搭建智能体
人工智能·python·agent
CodeShare15 分钟前
自适应集群协作提升大语言模型医疗决策支持能力
人工智能·大语言模型·医疗决策支持
大千AI助手26 分钟前
FEVER数据集:事实验证任务的大规模基准与评估框架
人工智能·深度学习·数据集·fever·事实验证·事实抽取·虚假信息
格林威1 小时前
Baumer工业相机堡盟工业相机如何通过YoloV8深度学习模型实现道路汽车的检测识别(C#代码,UI界面版)
人工智能·深度学习·数码相机·yolo·视觉检测