【NLP】如何实现快速加载gensim word2vec的预训练的词向量模型

1 问题

通过以下代码,实现加载word2vec词向量,每次加载都是几分钟,效率特别低。

python 复制代码
from gensim.models import Word2Vec,KeyedVectors

# 读取中文词向量模型(需要提前下载对应的词向量模型文件)
word2vec_model = KeyedVectors.load_word2vec_format('hy-tmp/word2vec.bz2', binary=False)

2 解决方案

(1)方案一

第一次加载后保存为能够快速加载的文件,第二次加载就能快读读取。

python 复制代码
file_path = "word2vec/train_bio_word"
if os.path.exists(file_path):
    word2vec_model = KeyedVectors.load(file_path,mmap='r')
else:
    # 读取中文词向量模型(需要提前下载对应的词向量模型文件)
    word2vec_model = KeyedVectors.load_word2vec_format('hy-tmp/word2vec.bz2', binary=False)
    word2vec_model.init_sims(replace=True)
    word2vec_model.save(file_path)
    

(2)方案二

第一次加载后,只将使用到的词向量以表格的形式保存到本地,第二次读取就不需要加载全部word2vec的,只加载表格中的词向量。

python 复制代码
file_path = "word2vec/train_vocabulary_vector.csv"
if os.path.exists(file_path):
    # 读取词汇-向量字典,csv转字典
    vocabulary_vector = dict(pd.read_csv(file_path))
    # 此时需要将字典中的词向量np.array型数据还原为原始类型,方便以后使用
    for key,value in vocabulary_vector.items():
       vocabulary_vector[key] = np.array(value)
    
else:
    # 所有文本构建词汇表,words_cut 为分词后的list,每个元素为以空格分隔的str.
    vocabulary = list(set([word for item in text_data1 for word in item]))
    # 构建词汇-向量字典
    vocabulary_vector = {}
    for word in vocabulary:
       if word in word2vec_model:
          vocabulary_vector[word] = word2vec_model[word]
    # 储存词汇-向量字典,由于json文件不能很好的保存numpy词向量,故使用csv保存
    pd.DataFrame(vocabulary_vector).to_csv(file_path)

(3)方案三

不使用word2vec的原训练权重,使用Embedding工具库。自动下载权重文件后,高效使用。

参考:https://github.com/vzhong/embeddings

安装库

text 复制代码
pip install embeddings  # from pypi
pip install git+https://github.com/vzhong/embeddings.git  # from github
python 复制代码
from embeddings import GloveEmbedding, FastTextEmbedding, KazumaCharEmbedding, ConcatEmbedding

g = GloveEmbedding('common_crawl_840', d_emb=300, show_progress=True)
f = FastTextEmbedding()
k = KazumaCharEmbedding()
c = ConcatEmbedding([g, f, k])
for w in ['canada', 'vancouver', 'toronto']:
    print('embedding {}'.format(w))
    print(g.emb(w))
    print(f.emb(w))
    print(k.emb(w))
    print(c.emb(w))
相关推荐
小关会打代码6 小时前
自然语言处理之第一课语言转换方法
人工智能·自然语言处理
Hello123网站11 小时前
Ferret:苹果发布的多模态大语言模型
人工智能·语言模型·自然语言处理·ai工具
AI 嗯啦1 天前
深度学习--自然语言预处理--- Word2Vec
人工智能·深度学习·word2vec
和鲸社区2 天前
《斯坦福CS336》作业1开源,从0手搓大模型|代码复现+免环境配置
人工智能·python·深度学习·计算机视觉·语言模型·自然语言处理·nlp
Gyoku Mint2 天前
NLP×第六卷:她给记忆加了筛子——LSTM与GRU的贴靠机制
人工智能·深度学习·神经网络·语言模型·自然语言处理·gru·lstm
THMAIL2 天前
深度学习从入门到精通 - BERT与预训练模型:NLP领域的核弹级技术详解
人工智能·python·深度学习·自然语言处理·性能优化·bert
居7然2 天前
从零开始学大模型之预训练语言模型
人工智能·语言模型·自然语言处理·大模型
陈敬雷-充电了么-CEO兼CTO2 天前
具身智能多模态感知与场景理解:融合语言模型的多模态大模型
人工智能·python·gpt·语言模型·自然语言处理·chatgpt·多模态
研梦非凡2 天前
CVPR 2025|无类别词汇的视觉-语言模型少样本学习
人工智能·深度学习·学习·语言模型·自然语言处理
ai绘画-安安妮3 天前
Agentic AI 架构全解析:到底什么是Agentic AI?它是如何工作的
人工智能·ai·语言模型·自然语言处理·程序员·大模型·转行