Transformer的前世今生 day11(Transformer的流程)

Transformer的流程

  • 在机器翻译任务中,翻译第一个词,Transformer的流程为:
    1. 先将要翻译的句子,一个词一个词的转换为词向量送入编码器层,得到优化过的词向量以及K、V,
    2. 将K、V送入解码器层,并跟解码器层将要翻译的Q进行计算,来找出相匹配的K、V,
    3. 经过线性层和Softmax层得到最后翻译的结果,如下图:
  • 注意:翻译第一个词的时候,还没有已经生成好的词输入进解码器层
  • 在机器翻译任务中,翻译接下来的词,Transformer的流程为:
    1. 先将要翻译的句子,一个词一个词的转换为词向量送入编码器层,得到优化过的词向量以及K、V,
    2. 将K、V送入解码器层,同时,将之前已经生成的词也送入解码器层,并跟解码器层将要翻译的Q进行计算,来找出相匹配的K、V,
    3. 经过线性层和Softmax层得到最后翻译的结果,再将生成的词作为解码器层的输入再重复以上的步骤,当遇到<eos>时最后得到模型的输出,如下图:

Transformer的框架

相关推荐
rengang6616 分钟前
03-深度学习与机器学习的对比:分析深度学习与传统机器学习的异同
人工智能·深度学习·机器学习
倔强青铜三34 分钟前
苦练Python第73天:玩转对象持久化,pickle模块极速入门
人工智能·python·面试
咕咚-萌西36 分钟前
DeepSeek-OCR
人工智能·深度学习·ocr
xcbeyond39 分钟前
从 MCP 到 RAG 再到 Agent:AI 应用架构的下一次跃迁
人工智能
Godspeed Zhao1 小时前
自动驾驶中的传感器技术74——Navigation(11)
人工智能·机器学习·自动驾驶
Godspeed Zhao1 小时前
自动驾驶中的传感器技术75——Navigation(12)
人工智能·机器学习·自动驾驶
rengang661 小时前
04-深度学习的基本概念:涵盖深度学习中的关键术语和原理
人工智能·深度学习
杨成功1 小时前
大语言模型(LLM)学习笔记
人工智能·llm
java1234_小锋1 小时前
PyTorch2 Python深度学习 - 卷积神经网络(CNN)介绍实例 - 使用MNIST识别手写数字示例
python·深度学习·cnn·pytorch2
雍凉明月夜1 小时前
人工智能学习中深度学习之python基础之迭代器、生成器、文件处理和模块等
python·深度学习·学习·pycharm