利用word2vec包将中文转变为词向量

代码展示:

python 复制代码
import jieba
import re
import json
import logging
import sys
import gensim.models as word2vec
from gensim.models.word2vec import LineSentence, logger

pattern = u'[\\s\\d,.<>/?:;\'\"[\\]{}()\\|~!\t"@#$%^&*\\-_=+a-zA-Z,。\n《》、?:;""''{}【】()...¥!---┄-]+'


def get_sentence(data_file):
    f = open(data_file, encoding='utf-8') #读取json数据
    reader = f.readlines()
    sentences = []  # 修改:存放每个句子的列表
    for line in reader:
        line = json.loads(line.strip())
        sentence = ' '.join(jieba.cut(re.sub(pattern, '', line['sentence'])))
        sentences.append(sentence)  # 修改:将每个分词后的句子添加到 sentences 列表中
    word_lists = [sentence.split() for sentence in sentences]
    return word_lists


def train_word2vec(sentences, out_vector):
    # 设置输出日志
    logging.basicConfig(format='%(asctime)s : %(levelname)s : %(message)s', level=logging.INFO)
    logger.info("running %s" % ' '.join(sys.argv))

    # 训练word2vec模型
    model = word2vec.Word2Vec(sentences, vector_size=100, sg=1, window=5, min_count=5, workers=4, epochs=5)

    # 保存word2vec模型
    model.save("word2vec_model.model")

    # 保存词向量到文件
    model.wv.save_word2vec_format(out_vector, binary=False)


def load_model(w2v_path):
    model = word2vec.Word2Vec.load(w2v_path)  # 读取保存的模型

    return model


def calculate_most_similar(model, word):
    similar_words = model.wv.most_similar(word)
    print(word)
    for term in similar_words:
        print(term[0], term[1])


if __name__ == '__main__':
    out_vector = 'word_vectors.txt'
    word_lists = get_sentence('train.json')
    train_word2vec(word_lists, out_vector)
    model = load_model('word2vec_model.model')
    calculate_most_similar(model, "美国")  # 输出与美国在词向量空间中相近的词

结果展现:

word2vec.Word2Vec 方法中的参数含义如下:

  • sentences:输入的句子集合,可以是一个可迭代对象,每个元素表示一个句子,句子则是由单词组成的列表。

  • vector_size:词向量的维度大小。它决定了每个单词在训练过程中学习到的词向量的维度。

  • window:词向量训练时的上下文窗口大小。窗口大小表示当前词与预测词之间的最大距离。在训练时,窗口大小决定了模型考虑的上下文单词数量。

  • min_count:忽略频率低于此值的单词。如果一个单词在整个语料库中的出现次数少于 min_count,则该单词将被忽略,不会被用于训练模型。

  • workers:训练时使用的线程数量,用于加速训练过程。指定多个线程可以加快模型的训练速度。

  • sg:用于指定训练算法的模型类型。当 sg=0 时,表示使用 CBOW 模型;当 sg=1 时,表示使用 Skip-Gram 模型。

  • epochs:指定训练的迭代次数。一个迭代表示对整个语料库的一次遍历。

这些参数共同决定了 Word2Vec 模型的训练过程和最终学习到的词向量的质量。根据具体的应用场景和语料库的特点,可以调整这些参数以获得更好的结果。

sentence的具体格式(两个列表):

python 复制代码
sentences = [['海陆空', '全能', '反恐', '王'], ['说', '出来', '你', '可能', '不', '信', '旅游', '日', '免费', '吃', '砂锅', '自助餐']]
相关推荐
K***728416 分钟前
开源模型应用落地-工具使用篇-Spring AI-Function Call(八)
人工智能·spring·开源
Chat_zhanggong3451 小时前
K4A8G165WC-BITD产品推荐
人工智能·嵌入式硬件·算法
霍格沃兹软件测试开发1 小时前
Playwright MCP浏览器自动化指南:让AI精准理解你的命令
运维·人工智能·自动化
强化学习与机器人控制仿真1 小时前
RSL-RL:开源人形机器人强化学习控制研究库
开发语言·人工智能·stm32·神经网络·机器人·强化学习·模仿学习
网易智企2 小时前
智能玩具新纪元:一个AI能力底座开启创新“加速度”
人工智能·microsoft
咚咚王者2 小时前
人工智能之数据分析 numpy:第十二章 数据持久化
人工智能·数据分析·numpy
沛沛老爹2 小时前
AI应用入门之LangChain中SerpAPI、LLM-Math等Tools的集成方法实践
人工智能·langchain·llm·ai入门·serpapi
roman_日积跬步-终至千里2 小时前
【强化学习基础(5)】策略搜索与学徒学习:从专家行为中学习加速学习过程
人工智能
杭州泽沃电子科技有限公司4 小时前
在线监测:为医药精细化工奠定安全、合规与质量基石
运维·人工智能·物联网·安全·智能监测
GIS数据转换器4 小时前
GIS+大模型助力安全风险精细化管理
大数据·网络·人工智能·安全·无人机