技术栈
word2vec
scx_link
17 天前
人工智能
·
自然语言处理
·
word2vec
Word2Vec词嵌入技术和动态词嵌入技术
Word2Vec(Word to Vector)是 2013 年由 Google 团队提出的无监督词嵌入模型,是一种静态词嵌入技术,核心目标是将自然语言中的离散词汇映射为低维、稠密的实数向量(即 “词向量”),让向量空间的距离和方向能够反映词汇的语义关联(如 “国王” 与 “女王” 的向量差近似 “男人” 与 “女人” 的向量差)。它解决了传统文本表示(如 One-Hot 编码)“维度灾难” 和 “语义孤立” 的问题,成为 现代自然语言处理(NLP)的基础技术之一。
AI 嗯啦
20 天前
人工智能
·
深度学习
·
word2vec
深度学习--自然语言预处理--- Word2Vec
Word2Vec 实现详解:从原理到工程落地Word2Vec 是 Google 于 2013 年提出的词嵌入(Word Embedding)模型,核心目标是将离散的文本词汇映射为低维、连续的实向量,让向量空间的距离 / 相似度对应词汇的语义关联(如 “国王”-“男人”≈“女王”-“女人”)。其实现分为原理设计、核心模型(CBOW/Skip-gram)、优化技巧(Hierarchical Softmax/Negative Sampling) 和工程步骤四部分,以下展开详细说明。
2202_75674969
1 个月前
人工智能
·
深度学习
·
自然语言处理
·
tf-idf
·
word2vec
自然处理语言NLP:One-Hot编码、TF-IDF、词向量、NLP特征输入、EmbeddingLayer实现、word2vec
自然语言处理(Natural Language Processing,简称 NLP)是人工智能(AI)的一个分支,致力于让计算机能够理解、生成、分析和处理人类语言(如中文、英文等)。
_Orch1d
2 个月前
神经网络
·
语言模型
·
word2vec
从神经网络语言模型(NNLM)到Word2Vec:自然语言处理中的词向量学习
语言(人说的话)+模型(完成某个任务)任务:用统计的方法解决上述的两个任务给定一个词序列,计算该序列出现的概率
zhurui_xiaozhuzaizai
2 个月前
人工智能
·
自然语言处理
·
word2vec
word2vector细致分解(CBOW, SKIP_GRAM, 层次soft Max, 负采样)
NGRAM:将词当成一个离散的单元(因此存在一定的局限性,没有考虑到词与词之间的关系) neural network language model:只能处理定长序列,训练慢。使用RNN之后有所改善
CarmenHu
2 个月前
笔记
·
学习
·
word2vec
Word2Vec和Doc2Vec学习笔记
Word2Vec 是一种基于神经网络的词嵌入技术,由 Google 在 2013 年提出。它将单词映射到高维向量空间,使得语义或语法相似的单词在向量空间中距离较近。Word2Vec 的核心思想是通过上下文预测单词(Skip-gram)或通过单词预测上下文(CBOW),从而学习单词的分布式表示。
Easy数模
2 个月前
人工智能
·
机器学习
·
自然语言处理
·
word2vec
Word2Vec模型训练全流程解析:从数据预处理到实体识别应用
请添加图片描述运行以下代码以启用辅助函数并重新读取数据。创建我们分析时要用到的文件列表。我们先将Word2Vec模型拟合到列表中的一本书——《白鲸记》(Moby Dick)。
IT古董
2 个月前
语言模型
·
embedding
·
word2vec
【第四章:大模型(LLM)】01.Embedding is all you need-(6)从 Word2Vec 到推荐/广告系统,再到大语言模型(LLM)
在自然语言处理中,词是离散的符号。传统方法使用 One-hot 编码 表示词语,维度高且无法表达词之间的语义关系。 Word2Vec 的出现,标志着从离散符号到稠密向量(Embedding)的里程碑跃迁。
weixin_42245644
2 个月前
人工智能
·
自然语言处理
·
word2vec
第N8周:使用Word2vec实现文本分类
(12100, 12100)Word2Vec 模型能够实现中文文本分类任务中的词向量表示,是一种经典的词嵌入方法,通过对大规模文本数据进行训练,将词语映射为连续的向量空间表示。这些词向量能够有效捕捉词与词之间的语义和句法关联,为后续的文本分类模型提供更具表达力的输入特征。
Brian Xia
3 个月前
人工智能
·
自然语言处理
·
word2vec
Word2Vec模型详解:CBOW与Skip-gram
Word2Vec是一种用于生成词向量的神经网络模型,由Google在2013年提出。它包含两种主要架构:
weixin_42245644
3 个月前
人工智能
·
机器学习
·
word2vec
第N7周:调用Gensim库训练Word2Vec模型
Gensim是在做自然语言处理时较为经常用到的一个工具库,主要用来以无监督的方式从原始的非结构化文本当中来学习到文本隐藏层的主题向量表达。
西西弗Sisyphus
3 个月前
人工智能
·
word
·
word2vec
如果让计算机理解人类语言- Word2Vec(Word to Vector,2013)
flyfish“Word2Vec” 直译为“词到向量”(Word to Vector),其命名直观揭示了核心目标:将文本中的词(Word)映射为计算机可理解的向量(Vector),且这种映射不是简单的符号编码,而是能捕捉词与词之间的语义关联。 “Word”(词):文本的基本语义单位,如“苹果”“爱”“人工智能”; “2Vec”(到向量):通过神经网络学习,将词转换为低维稠密向量(通常100-300维),向量空间中语义相近的词距离更接近。 Word2Vec的本质是:通过神经网络学习词的分布式表示,让语义关联
zeroporn
3 个月前
人工智能
·
深度学习
·
算法
·
自然语言处理
·
embedding
·
word2vec
·
skip-gram
以玄幻小说方式打开深度学习词嵌入算法!! 使用Skip-gram来完成 Word2Vec 词嵌入(Embedding)
在浩瀚的修真界中,存在一种上古秘术名为《词嵌真经》。修士们发现,世间万物皆有其“道韵”,而语言中的每个字词都暗含天地法则。传统修炼方式需逐个参悟字词,耗时千年方能小成。
小叮当爱咖啡
3 个月前
人工智能
·
自然语言处理
·
word2vec
使用Word2Vec实现中文文本分类
本文为🔗365天深度学习训练营内部文章原作者:K同学啊本次将加入Word2vec使用PyTorch实现中文文本分类,Word2Vec 则是其中的一种词嵌入方法,是一种用于生成词向量的浅层神经网络模型,由Tomas Mikolov及其团队于2013年提出。Word2Vec通过学习大量文本数据,将每个单词表示为一个连续的向量,这些向量可以捕捉单词之间的语义和句法关系。数据示例如下:
小叮当爱咖啡
4 个月前
人工智能
·
自然语言处理
·
word2vec
调用Gensim库训练Word2Vec模型
本文为🔗365天深度学习训练营内部文章原作者:K同学啊CBOW(Continuous Bag of Words)模型是通过上下文来预测当前值。相当于一句话中扣掉一个词,让你猜这个词是什么。 具体来说,CBOW 模型首先将输入的词语转换为词向量,然后将这些词向量相加得到一个向量表示这个向量表示就是当前上下文的表示。最后,CBOW 模型使用这个向量表示来预测目标词语的概率分布。CBOW 模型的核心思想是根据上下文预测当前词语,因此它通常适用于训练数据中目标词语出现频率较高的情况。
郜太素
4 个月前
人工智能
·
自然语言处理
·
nlp
·
tensorflow
·
word2vec
自然语言处理入门及文本预处理
文本预处理及作用:文本预处理的主要环节:分词分词的意义:常用分词工具:jieba分词工具精确模式:按照人类日常用语表达习惯来分词
IT古董
4 个月前
机器学习
·
自然语言处理
·
word2vec
【漫话机器学习系列】249.Word2Vec自然语言训练模型
在自然语言处理(NLP)领域,我们常常需要将文本信息转化为机器能够理解和处理的形式。传统的方法,如 one-hot编码,虽然简单,但存在严重的稀疏性和高维度问题,且无法体现词语之间的语义关系。
ai大模型木子
5 个月前
人工智能
·
自然语言处理
·
bert
·
embedding
·
word2vec
·
ai大模型
·
大模型资料
嵌入模型(Embedding Models)原理详解:从Word2Vec到BERT的技术演进
嵌入模型(Embedding Models) 是一种将高维离散数据(如文本、图像)转换为低维连续向量表示的技术。这些向量能够反映数据的语义关系,使得“语义相近的实体在向量空间中距离更近”。例如:
alpha xu
5 个月前
人工智能
·
python
·
语言模型
·
自然语言处理
·
sklearn
·
word2vec
LLM中的N-Gram、TF-IDF和Word embedding
N-Gram是一种让计算机理解语言规律的基础方法,主要用于预测文本中下一个可能出现的词。它的核心思想很简单:假设一个词的出现只和前面的几个词有关。
xidianjiapei001
6 个月前
llm
·
bert
·
word2vec
·
elmo
·
cbow
·
llm架构
·
词嵌入模型
LLM架构解析:词嵌入模型 Word Embeddings(第二部分)—— 从基础原理到实践应用的深度探索
本专栏深入探究从循环神经网络(RNN)到Transformer等自然语言处理(NLP)模型的架构,以及基于这些模型构建的应用程序。