第N7周:调用Gensim库训练Word2Vec模型

一、准备工作

1.安装Gensim库

Gensim是在做自然语言处理 时较为经常用到的一个工具库,主要用来以无监督的方式从原始的非结构化文本当中来学习到文本隐藏层的主题向量表达。

主要包括TF-IDF,LSA,LDA,word2vec,doc2vec等多种模型。

2.对原始语料分词

选择《人民的名义》的小说原文作为语料,先采用jieba进行分词。这里是直接添加的自定义词汇,没有选择创建自定义词汇文件。

python 复制代码
import jieba
import jieba.analyse
jieba.suggest_freq('沙瑞金',True)# 加入一些词,使得jieba分词准确率更高
jieba.suggest_freq('田国富',True)
jieba.suggest_freq('高育良',True)
jieba.suggest_freq('侯亮平',True)
jieba.suggest_freq('钟小艾',True)
jieba.suggest_freq('陈岩石',True)
jieba.suggest_freq('欧阳菁',True)
jieba.suggest_freq('易学习',True)
jieba.suggest_freq('王大路',True)
jieba.suggest_freq('蔡成功',True)
jieba.suggest_freq('孙连城',True)
jieba.suggest_freq('季昌明',True)
jieba.suggest_freq('丁义珍',True)
jieba.suggest_freq('郑西坡',True)
jieba.suggest_freq('赵东来',True)
jieba.suggest_freq('高小琴',True)
jieba.suggest_freq('赵瑞龙',True)
jieba.suggest_freq('林华华',True)
jieba.suggest_freq('陆亦可',True)
jieba.suggest_freq('刘新建',True)
jieba.suggest_freq('刘庆祝',True)
jieba.suggest_freq('赵德汉',True)

with open('F:/jupyter lab/DL-100-days/datasets/NLP/in_the_name_of_people.txt', encoding='utf-8') as f:
    result_cut= []
    lines =f.readlines()
    for line in lines:
        result_cut.append(list(jieba.cut(line)))
        
f.close()
python 复制代码
#添加自定义停用词
stopwords_list =[",","。","\n","\u3000"," ",":","!","?","..."]

def remove_stopwords(ls):#去除停用词
    return [word for word in ls if word not in stopwords_list]
    
result_stop=[remove_stopwords(x) for x in result_cut if remove_stopwords(x)]

拿到了分词后的文件,在一般的NLP处理中,会需要去停用词。由于word2vec的算法依赖于上下文而上下文有可能就是停词。因此对于word2vec,我们可以不用去停词,仅仅去掉一些标点符号,做一个简单的数据清洗。

现在我们可以直接读分词后的文件到内存。这里使用了word2vec提供的LineSentence类来读文件然后套用word2vec的模型。在实际应用中,可以调参提高词的embedding的效果

python 复制代码
print(result_stop[100:103])

二、训练Word2Vec

python 复制代码
from gensim.models import Word2Vec

model = Word2Vec(result_stop,      #用于训练的语料数据
                 vector_size=100,  #是指特征向量的维度,默认为100。
                 window=5,         #一个句子中当前单词和被预测单词的最大距离。
                 min_count=1)      #可以对字典做截断,词频少于mincount次数的单词会被丢弃掉,

三、模型应用

1.计算词汇相似度
python 复制代码
#计算两个词的相似度
print(model.wv.similarity('沙瑞金','季昌明'))
print(model.wv.similarity('沙瑞金','田国富'))
复制代码
0.9994106
0.99951524
python 复制代码
#选出最相似的5个词
for e in model.wv.most_similar(positive=['沙瑞金'],topn=5):
    print(e[0],e[1])
复制代码
这位 0.999855637550354
干部 0.999782383441925
做 0.9997743368148804
刘新建 0.9997636675834656
大 0.9997599720954895
2.找出不匹配的词汇
python 复制代码
odd_word = model.wv.doesnt_match(["苹果","香蕉","橙子","书"])
print(f"在这组词汇中不匹配的词汇:{odd_word}")
3.计算词汇的词频
python 复制代码
word_frequency = model.wv.get_vecattr("沙瑞金","count")
print(f"沙瑞金:{word_frequency}")

四、学习心得

本周调用Gensim库训练Word2Vec模型,首先是安装Gensim库,随后进行分词和训练。通过分词可以对数据进行更好地区分。随后对Word2Vec进行训练,随之应用。

相关推荐
MARS_AI_3 小时前
云蝠智能 Voice Agent 落地展会邀约场景:重构会展行业的智能交互范式
人工智能·自然语言处理·重构·交互·语音识别·信息与通信
HuggingFace6 小时前
Hugging Face 开源机器人 Reachy Mini 开启预定
人工智能
企企通采购云平台7 小时前
「天元宠物」×企企通,加速数智化升级,“链”接萌宠消费新蓝海
大数据·人工智能·宠物
超级小忍7 小时前
Spring AI ETL Pipeline使用指南
人工智能·spring
张较瘦_8 小时前
[论文阅读] 人工智能 | 读懂Meta-Fair:让LLM摆脱偏见的自动化测试新方法
论文阅读·人工智能
巴伦是只猫8 小时前
【机器学习笔记 Ⅲ】4 特征选择
人工智能·笔记·机器学习
好心的小明9 小时前
【王树森推荐系统】召回11:地理位置召回、作者召回、缓存召回
人工智能·缓存·推荐系统·推荐算法
lishaoan779 小时前
使用tensorflow的线性回归的例子(十二)
人工智能·tensorflow·线性回归·戴明回归
Danceful_YJ9 小时前
4.权重衰减(weight decay)
python·深度学习·机器学习