word2vec

Francek Chen1 天前
人工智能·pytorch·深度学习·自然语言处理·word2vec
【自然语言处理】预训练04:预训练word2vec【作者主页】Francek Chen 【专栏介绍】 ⌈ ⌈ ⌈PyTorch深度学习 ⌋ ⌋ ⌋ 深度学习 (DL, Deep Learning) 特指基于深层神经网络模型和方法的机器学习。它是在统计机器学习、人工神经网络等算法模型基础上,结合当代大数据和大算力的发展而发展出来的。深度学习最重要的技术特征是具有自动提取特征的能力。神经网络算法、算力和数据是开展深度学习的三要素。深度学习在计算机视觉、自然语言处理、多模态数据分析、科学探索等领域都取得了很多成果。本专栏介绍基于PyTorch的深度学习算法实现
Francek Chen12 天前
人工智能·自然语言处理·word2vec
【自然语言处理】预训练01:词嵌入(word2vec)【作者主页】Francek Chen 【专栏介绍】 ⌈ ⌈ ⌈PyTorch深度学习 ⌋ ⌋ ⌋ 深度学习 (DL, Deep Learning) 特指基于深层神经网络模型和方法的机器学习。它是在统计机器学习、人工神经网络等算法模型基础上,结合当代大数据和大算力的发展而发展出来的。深度学习最重要的技术特征是具有自动提取特征的能力。神经网络算法、算力和数据是开展深度学习的三要素。深度学习在计算机视觉、自然语言处理、多模态数据分析、科学探索等领域都取得了很多成果。本专栏介绍基于PyTorch的深度学习算法实现
Cl_rown去掉l变成C17 天前
人工智能·自然语言处理·word2vec
第N7周打卡:调用Gensim库训练Word2Vec模型Word2Vec 模型学习总结 4.1Word2Vec 是一种非常强大的词嵌入(Word Embedding)技术,通过学习单词的分布式表示,可以将单词映射到高维向量空间中,使得语义相似的单词在向量空间中的距离更近。 4.2主要参数理解 4.2.1vector_size (特征向量维度) 决定了词向量的维度大小 通常设置在50-300之间 维度越高能捕捉更多特征,但也需要更多数据和计算资源 4.2.2window (上下文窗口大小) 控制训练时考虑的上下文范围 较大的窗口能捕捉更多主题信息(文档级语义)
只是懒得想了22 天前
人工智能·自然语言处理·nlp·word2vec·gensim
使用 Gensim 进行主题建模(LDA)与词向量训练(Word2Vec)的完整指南在自然语言处理(NLP)中,主题建模和词向量表示是理解文本语义结构的两大基石。gensim 是一个功能强大且高效的 Python 库,专为大规模无监督语言建模设计,尤其擅长实现 Latent Dirichlet Allocation (LDA) 和 Word2Vec 模型。
flying_131423 天前
自然语言处理·nlp·word2vec·softmax·skip-gram·hierarchical·分层softmax
自然语言处理分享系列-词语和短语的分布式表示及其组合性(一)目录一、摘要连续 Skip-gram 模型及其改进词表示的局限性及短语处理二、介绍分布式词向量的作用Skip-gram模型的创新
东方芷兰24 天前
人工智能·笔记·神经网络·语言模型·自然语言处理·word·word2vec
LLM 笔记 —— 08 Embeddings(One-hot、Word、Word2Vec、Glove、FastText)One-hot Encoding 是一种以数字表示分类值的方法。假设我们创建一个数组,该数组的长和宽与我们的元素数量相同,除对角线的数字为 1 以外,其余位置的数字都为 0。
진영_1 个月前
人工智能·深度学习·word2vec
深度学习打卡第N8周:使用Word2vec实现文本分类本次将加入Word2vec使用PyTorch实现中文文本分类,Word2Vec则是其中的一种词嵌入方去,是一种用于生成词向量的浅层神经网络模型,由Tomas Mikolov及其团队于2013年提出。 Word2Vec通过学习大量文本数据,将每个单词表示为一个连续的向量,这些向量可以捕捉单词之间的语义和句法关系。数据示例如下:
l12345sy1 个月前
人工智能·自然语言处理·word2vec·word embedding·cbow·skipgram
Day31_【 NLP _1.文本预处理 _(2)文本张量表示方法】目录:文本张量表示方法one-hot编码Word2vecWord Embedding文本张量表示:将一段文本使用张量进行表示这个过程就是文本张量表示。
Sunhen_Qiletian1 个月前
人工智能·pytorch·word2vec
用PyTorch实现CBOW模型:从原理到实战的Word2Vec入门指南目录引言一、环境准备二、CBOW模型核心原理1. 问题定义:从上下文预测中心词2. 模型结构:四层神经网络
진영_1 个月前
人工智能·深度学习·word2vec
深度学习打卡第N7周:调用Gensim库训练Word2Vec模型本次打卡学习了word2vec模型的调用和使用,了解到了其在文本任务中的作用和便利性。
scx_link2 个月前
人工智能·自然语言处理·word2vec
Word2Vec词嵌入技术和动态词嵌入技术Word2Vec(Word to Vector)是 2013 年由 Google 团队提出的无监督词嵌入模型,是一种静态词嵌入技术,核心目标是将自然语言中的离散词汇映射为低维、稠密的实数向量(即 “词向量”),让向量空间的距离和方向能够反映词汇的语义关联(如 “国王” 与 “女王” 的向量差近似 “男人” 与 “女人” 的向量差)。它解决了传统文本表示(如 One-Hot 编码)“维度灾难” 和 “语义孤立” 的问题,成为 现代自然语言处理(NLP)的基础技术之一。
AI 嗯啦2 个月前
人工智能·深度学习·word2vec
深度学习--自然语言预处理--- Word2VecWord2Vec 实现详解:从原理到工程落地Word2Vec 是 Google 于 2013 年提出的词嵌入(Word Embedding)模型,核心目标是将离散的文本词汇映射为低维、连续的实向量,让向量空间的距离 / 相似度对应词汇的语义关联(如 “国王”-“男人”≈“女王”-“女人”)。其实现分为原理设计、核心模型(CBOW/Skip-gram)、优化技巧(Hierarchical Softmax/Negative Sampling) 和工程步骤四部分,以下展开详细说明。
2202_756749692 个月前
人工智能·深度学习·自然语言处理·tf-idf·word2vec
自然处理语言NLP:One-Hot编码、TF-IDF、词向量、NLP特征输入、EmbeddingLayer实现、word2vec自然语言处理(Natural Language Processing,简称 NLP)是人工智能(AI)的一个分支,致力于让计算机能够理解、生成、分析和处理人类语言(如中文、英文等)。
_Orch1d3 个月前
神经网络·语言模型·word2vec
从神经网络语言模型(NNLM)到Word2Vec:自然语言处理中的词向量学习语言(人说的话)+模型(完成某个任务)任务:用统计的方法解决上述的两个任务给定一个词序列,计算该序列出现的概率
zhurui_xiaozhuzaizai3 个月前
人工智能·自然语言处理·word2vec
word2vector细致分解(CBOW, SKIP_GRAM, 层次soft Max, 负采样)NGRAM:将词当成一个离散的单元(因此存在一定的局限性,没有考虑到词与词之间的关系) neural network language model:只能处理定长序列,训练慢。使用RNN之后有所改善
CarmenHu3 个月前
笔记·学习·word2vec
Word2Vec和Doc2Vec学习笔记Word2Vec 是一种基于神经网络的词嵌入技术,由 Google 在 2013 年提出。它将单词映射到高维向量空间,使得语义或语法相似的单词在向量空间中距离较近。Word2Vec 的核心思想是通过上下文预测单词(Skip-gram)或通过单词预测上下文(CBOW),从而学习单词的分布式表示。
Easy数模3 个月前
人工智能·机器学习·自然语言处理·word2vec
Word2Vec模型训练全流程解析:从数据预处理到实体识别应用请添加图片描述运行以下代码以启用辅助函数并重新读取数据。创建我们分析时要用到的文件列表。我们先将Word2Vec模型拟合到列表中的一本书——《白鲸记》(Moby Dick)。
IT古董3 个月前
语言模型·embedding·word2vec
【第四章:大模型(LLM)】01.Embedding is all you need-(6)从 Word2Vec 到推荐/广告系统,再到大语言模型(LLM)在自然语言处理中,词是离散的符号。传统方法使用 One-hot 编码 表示词语,维度高且无法表达词之间的语义关系。 Word2Vec 的出现,标志着从离散符号到稠密向量(Embedding)的里程碑跃迁。
weixin_422456443 个月前
人工智能·自然语言处理·word2vec
第N8周:使用Word2vec实现文本分类(12100, 12100)Word2Vec 模型能够实现中文文本分类任务中的词向量表示,是一种经典的词嵌入方法,通过对大规模文本数据进行训练,将词语映射为连续的向量空间表示。这些词向量能够有效捕捉词与词之间的语义和句法关联,为后续的文本分类模型提供更具表达力的输入特征。
Brian Xia4 个月前
人工智能·自然语言处理·word2vec
Word2Vec模型详解:CBOW与Skip-gramWord2Vec是一种用于生成词向量的神经网络模型,由Google在2013年提出。它包含两种主要架构: