notes_NLP

RNN > LSTM, GRU

model 特点
RNN
LSTM input+forget+putput;
GRU reset+update;参数比LSTM少,计算效率更高;

循环神经网络(RNN/LSTM/GRU)
人人都能看懂的GRU

transformer > self-attention

  1. 根据Query和Key计算权重系数
    1.1 根据Query和Key计算两者的相似性或者相关性
    1.2 对第一阶段的原始分值进行归一化处理
  2. 根据权重系数对Value进行加权求和

Transformerattention机制和LSTMgate机制都通过加权方法控制了信息的流动;当前时刻的输出依赖于历史(单向模型)或者历史和未来的信息(双向模型)。

不同点:

model attention gate
激活函数 sigmoid softmax
操作对象 全局 元素
可作用范围 any 有限

Attention weights和LSTM/GRU中的gate机制有何不同?
超详细图解Self-Attention
熬了一晚上,我从零实现了Transformer模型,把代码讲给你听

预训练语言模型

预训练 :在模型参数初始化时使用已经在一些任务上预先训练完的、而非随机的参数。在后续具体任务上,可以冻结(fronzen)微调(fine-tune)参数。

预训练语言模型 :在以word2vec(2013)为代表的第一代预训练语言模型中,一个单词的词向量是固定不变的,无法区分单词的不同语义。ELMo(2018)考虑了上下文的信息,较好地解决了多义词的表示问题,开启了第二代预训练语言模型的时代,即预训练+微调的范式。

自回归模型 可以类比为早期的统计语言模型,也就是根据上文预测下一个单词,或者根据下文预测前面的单词。包括ELMoGPTXLNet等。
自编码模型 可以在输入中随机掩盖一个单词(相当于噪声),在预训练过程中,根据上下文预测被掩码词,因此可以认为是一个降噪(denosing)的过程。包括BERTERINERoBERTa等。

MLM (Masked Language Modeling) 是一种预训练语言模型的方法,通过在输入文本中随机掩盖一些单词或标记,并要求模型预测这些掩盖的单词或标记。主要目的是训练模型来学习上下文信息,以便在预测掩盖的单词或标记时提高准确性。

一文了解预训练语言模型!
预训练模型与10种常见NLP预训练模型
Masked Language Modeling

ProtBERT

... ...

相关推荐
井底哇哇4 小时前
ChatGPT是强人工智能吗?
人工智能·chatgpt
Coovally AI模型快速验证4 小时前
MMYOLO:打破单一模式限制,多模态目标检测的革命性突破!
人工智能·算法·yolo·目标检测·机器学习·计算机视觉·目标跟踪
AI浩4 小时前
【面试总结】FFN(前馈神经网络)在Transformer模型中先升维再降维的原因
人工智能·深度学习·计算机视觉·transformer
可为测控4 小时前
图像处理基础(4):高斯滤波器详解
人工智能·算法·计算机视觉
一水鉴天5 小时前
为AI聊天工具添加一个知识系统 之63 详细设计 之4:AI操作系统 之2 智能合约
开发语言·人工智能·python
倔强的石头1065 小时前
解锁辅助驾驶新境界:基于昇腾 AI 异构计算架构 CANN 的应用探秘
人工智能·架构
佛州小李哥6 小时前
Agent群舞,在亚马逊云科技搭建数字营销多代理(Multi-Agent)(下篇)
人工智能·科技·ai·语言模型·云计算·aws·亚马逊云科技
说私域6 小时前
社群裂变+2+1链动新纪元:S2B2C小程序如何重塑企业客户管理版图?
大数据·人工智能·小程序·开源
程序猿阿伟6 小时前
《探秘鸿蒙Next:如何保障AI模型轻量化后多设备协同功能一致》
人工智能·华为·harmonyos
2401_897579657 小时前
AI赋能Flutter开发:ScriptEcho助你高效构建跨端应用
前端·人工智能·flutter