《Ai学习笔记》自然语言处理 (Natural Language Processing):常见机器阅读理解模型(上)02

Glove 词向量:

在机器理解中的词的表示:

词袋(bow,bag of words)

one-hot

词向量

word2vec

glove

目的:将一个词转换成一个向量

Word2vec

是一种用于生成词向量的工具包,由Google在2013年开源推出。它是一种自然语言处理技术,旨在将文本中的词汇转换成连续的向量空间中的稠密向量表示,这样的表示方式能够捕获词语之间的语义和语法关系。Word2vec模型主要基于两个算法:连续词袋(Continuous Bag of Words, CBOW)和Skip-gram。

  • 连续词袋(CBOW):该模型通过上下文词语预测目标词,即利用一个词语的周围上下文词汇来预测这个词语本身。在这个过程中,模型学习到一个词语的向量表示,使其能够尽可能准确地反映该词语在不同上下文中的出现情况。

  • Skip-gram:与CBOW相反,Skip-gram模型是利用中心词来预测它周围的上下文词汇。这种方法试图使一个词的向量能够生成它在文本中可能的上下文,从而学到的词向量能够体现词语的分布特征。

Word2vec的核心在于其能够将词语映射到高维空间中,使得语义上相似的词语在该空间中的距离较近。这种词向量表示法对于许多自然语言处理任务非常有用,如情感分析、机器翻译、文本分类、信息检索、语义相似度计算等。Word2vec的成功在于它能够在无监督的情况下从大量文本数据中学习到高质量的词嵌入,极大地推动了自然语言处理领域的发展。

Word2vec问题:只关注局部,没有考虑全文语言特性。

GLOVE

GloVe (Global Vectors for Word Representation) 是另一种词嵌入方法,由斯坦福大学的研究人员在2014年提出。与Word2vec相似,GloVe的目标也是学习词语的向量表示,以便捕捉它们之间的语义关系。但是,GloVe在训练方法上有所不同,它结合了全局统计信息和局部上下文信息。

GloVe的基本思想是基于词语共现矩阵(co-occurrence matrix)。这个矩阵的元素表示一个词作为上下文词出现在另一个词周围的概率。与Word2vec的Skip-gram需要最大化条件概率不同,GloVe直接对整个共现矩阵进行了优化,通过最小化词语对的共现频率与其向量内积之间的差异来学习词向量。具体来说,它的目标函数表达了词语共现次数的对数与这两个词语向量的点积之间的差距的平方和。

GloVe的优点在于它明确地纳入了全局的统计信息,这有助于模型更好地理解和平衡词频的影响,并且在某些任务和数据集上表现出了比Word2vec更好的性能。此外,GloVe在训练时通常比Skip-gram更快,因为它优化的是整个概率的加权求和,而不是单独的条件概率。

总而言之,GloVe是Word2vec之后发展起来的一种高效且有效的词嵌入方法,它通过优化词语共现的统计信息来学习词向量,尤其适合于那些需要考虑全局统计特性的应用场景。

卷积神经网络CNN

处理网格结构的神经网络

-图像数据

-时间序列数据

至少在网络的一层中使用了卷积运算代替矩阵乘法运算

三个重要思想:

稀疏交互:不是每个输出单元与输入单元都产生交互

参数共享:多个函数相同参数

等变表示:平移

相关推荐
第七序章16 小时前
【C++STL】list的详细用法和底层实现
c语言·c++·自然语言处理·list
Hello_Embed20 小时前
STM32HAL 快速入门(二十):UART 中断改进 —— 环形缓冲区解决数据丢失
笔记·stm32·单片机·学习·嵌入式软件
咸甜适中21 小时前
rust语言 (1.88) 学习笔记:客户端和服务器端同在一个项目中
笔记·学习·rust
Grassto21 小时前
RAG 从入门到放弃?丐版 demo 实战笔记(go+python)
笔记
Magnetic_h1 天前
【iOS】设计模式复习
笔记·学习·ios·设计模式·objective-c·cocoa
研梦非凡1 天前
ICCV 2025|从粗到细:用于高效3D高斯溅射的可学习离散小波变换
人工智能·深度学习·学习·3d
limengshi1383921 天前
机器学习面试:请介绍几种常用的学习率衰减方式
人工智能·学习·机器学习
知识分享小能手1 天前
React学习教程,从入门到精通,React 组件核心语法知识点详解(类组件体系)(19)
前端·javascript·vue.js·学习·react.js·react·anti-design-vue
大千AI助手1 天前
TruthfulQA:衡量语言模型真实性的基准
人工智能·语言模型·自然语言处理·llm·模型评估·truthfulqa·事实性基准
周周记笔记1 天前
学习笔记:第一个Python程序
笔记·学习