GloVe: Global Vectors for Word Representation论文笔记解读

基本信息

作者 Jeffrey Pennington doi 10.3115/v1/D14-1162
发表时间 2014 期刊 EMNLP
网址 https://aclanthology.org/D14-1162.pdf

研究背景

1. What's known 既往研究已证实

全局矩阵分解方法:LSA,考虑整个语料库词频的统计信息得到共现矩阵,通过矩阵分解得到潜在语义信息。【有效地利用了统计信息,但它们在单词类比任务上做得相对较差,这表明向量空间结构不是最优的。】

局部上下文窗口方法:skip-gram (以及cbow)。【在类比任务上做得更好,但它们很少利用语料库的统计数据,因为它们在单独的局部上下文窗口上训练,而不是在全局共出现计数上训练。】

2. What's new 创新点

Glove模型:融合了当时最新的全局矩阵分解方法和局部文本框捕捉方法,即全局词向量表达,利用了全局词词共现矩阵中的非0数据来训练。

3. What's are the implications 意义

这种新的词向量表达方法提高了很多NLP基础任务的准确率。

研究方法

1. GloVe

α 取值为0.75能得到最好的模型效果。

结果与讨论

  1. 该模型训练的高效性,且在语料库较小时,也能取得不错的效果。
  2. 窗口大小逐渐变大,GloVe词向量在语义任务表现最佳。
  3. 同时使用对称上下文对GloVe词向量在各个任务的表现有益处。

个人思考与启发

拓展学习:论文阅读 - Distributed Representations of Words

用来表示 word 的向量被称为 Embedding,因为这个词被嵌入到(embedded)了向量空间中。

重要图

文献中重要的图记录下来

展示了三个不同超参数对最终结果的影响。

第一个是保持窗口对称,且窗口大小固定的情况下,向量维度对最终模型表现的影响。可以看到最初随着维度增加,模型表现也愈佳,但是当维度增加到300以上后,模型表现没有很明显的变化。虽然semantic评估有略微增长,但是维度增加,对资源的消耗也会增加,所以考虑到成本,一般会选择300作为最终的维度。

第二个是指保持窗口对称,维度固定的情况下,窗口大小对模型的影响。

第三个是指窗口不对称,也就是说只考虑前面或者后面的单词,维度固定的情况下,窗口大小对模型的影响。

迭代次数越多越小,效果很稳定。

补充内容:复习word2vec的核心思路

相关推荐
王莎莎-MinerU24 分钟前
MinerU 深度技术解析:从架构原理到生产部署的全面指南
css·人工智能·自然语言处理·架构·ocr·个人开发
盘古信息IMS30 分钟前
盘古信息IMS V6 8.0重磅发布:以薪火AI数智平台点燃离散制造数智化引擎
大数据·人工智能·制造
kkeeper~32 分钟前
0基础C语言积跬步之数据在内存中的存储
c语言·数据结构·算法
weilaieqi137 分钟前
从音响制造到AI家庭娱乐生态:不见不散AI智能K歌音响亮相第二十届深圳国际金融博览会
人工智能·制造·娱乐
企服AI产品测评局38 分钟前
Agent适配信创环境实测:企业级自动化如何实现国产操作系统与数据库全兼容?
运维·数据库·人工智能·ai·chatgpt·自动化
Jiude40 分钟前
AI 写代码太快之后,团队协作反而更难了
人工智能·架构·github
12点一刻1 小时前
Superpowers — AI 驱动的软件工程方法论框架
人工智能·软件工程
EasyCVR1 小时前
国标GB28181视频监控平台EasyCVR行业解决方案深度解读——雪亮工程、智慧城市与智慧交通
人工智能·音视频·智慧城市
论文小助手W6851 小时前
【ACM出版,EI检索】2026年人工智能与智慧城市国际学术会议(IC-AISC 2026)
大数据·人工智能·全文检索·智慧城市·交通物流
火山引擎开发者社区1 小时前
您的岗位情报官上线,ArkClaw「每日情报助手」带您吃透全行业
人工智能