ELMo——Embeddings from Language Models原理速学

参考视频:词向量 | ELMO | 原理简介+代码简析_哔哩哔哩_bilibili

研究背景

传统的词向量表示:一个单词对应一个固定的向量,尽管一个单词可能存在多个含义

解决方案

  1. 一个词拥有多个词向量表示
  1. 利用subword信息
  1. 基于语境的向量表示 (ELMo)

什么是语言模型?

用来计算一个句子序列是不是一个拥有真正语句含义的概率。

  1. 前向语言模型

计算当前词语对前面词语依赖关系:先计算t1出现的概率 * t1出现前提下t2出现的概率 * ...

  1. 后向语言模型
  1. 双向语言模型(ELMo) = 前向 + 后向

LSTM

LSTM(Long Short-Term Memory) 是一种特殊的循环神经网络(RNN) ,由Hochreiter & Schmidhuber于1997年提出,专门用于解决传统RNN的长期依赖问题(即难以学习远距离时序信息的问题)。

前向LSTM

初始token e1 -->LSTM--->隐藏的输出向量(LSTM中)-->分类层---> 第二个token t2

初始token e2 + 前一个LSTM中的隐藏输出向量 --> LSTM ---> 分类层 ---> 第三个token t3

后向LSTM

双向Bi-directional LSTM

ELMo

使用的是两层Bi-LSTM

输入token e1 + 两层LSTM中的隐层向量(每一层因为是双向也有两个隐藏向量)= 5 个向量表示

相当于一个词语 = 2*层数 + 1 个向量表示。

具体用的哪一个表示?

EMLo用的加权和的方式,综合所有层的向量,给每个向量赋予不同的权重。

底层更多蕴含句法上的特征信息;顶层蕴含更多语义信息。

ELMo局限性

  1. 基于LSTM架构导致:
  • 计算复杂度高:ELMo使用双向LSTM(长短期记忆网络)作为基础架构,LSTM的序列依赖性导致训练和推理速度较慢,尤其是在处理长文本时。
  • 并行化困难:LSTM需要按时间步顺序计算,当前输入依赖上一时刻的输出,无法像Transformer那样充分利用GPU的并行计算能力,训练效率较低。
  1. ELMo对上下文信息仅使用的简单拼接

ELMo的双向上下文信息是通过独立的前向LSTM和反向LSTM输出的直接拼接(concat)实现的,而非真正的交互式融合。这导致:

  • 前向和反向LSTM的训练过程完全独立,无法在每一层动态交互(如BERT的Self-Attention可以同时关注前后文)。
  • 上下文信息的整合是静态的(预训练后固定),无法根据具体任务动态调整权重。
  1. 分层权重固定

ELMo对不同层LSTM的输出进行线性加权,但这些权重在预训练后固定,微调时仅能调整全局缩放因子,灵活性不足。

相关推荐
wb0430720111 分钟前
性能优化实战:基于方法执行监控与AI调用链分析
java·人工智能·spring boot·语言模型·性能优化
AAA小肥杨12 分钟前
基于k8s的Python的分布式深度学习训练平台搭建简单实践
人工智能·分布式·python·ai·kubernetes·gpu
mit6.8242 小时前
[Agent可视化] 配置系统 | 实现AI模型切换 | 热重载机制 | fsnotify库(go)
开发语言·人工智能·golang
Percent_bigdata3 小时前
百分点科技发布中国首个AI原生GEO产品Generforce,助力品牌决胜AI搜索新时代
人工智能·科技·ai-native
Gloria_niki3 小时前
YOLOv4 学习总结
人工智能·计算机视觉·目标跟踪
FriendshipT3 小时前
目标检测:使用自己的数据集微调DEIMv2进行物体检测
人工智能·pytorch·python·目标检测·计算机视觉
海森大数据3 小时前
三步破局:一致性轨迹强化学习开启扩散语言模型“又快又好”推理新时代
人工智能·语言模型·自然语言处理
Tencent_TCB3 小时前
云开发CloudBase AI+实战:快速搭建AI小程序全流程指南
人工智能·ai·小程序·ai编程·云开发
Sunhen_Qiletian3 小时前
基于OpenCV与Python的身份证号码识别案例详解
人工智能·opencv·计算机视觉
AustinCyy3 小时前
【论文笔记】Introduction to Explainable AI
论文阅读·人工智能