Transformer的前世今生 day11(Transformer的流程)

Transformer的流程

  • 在机器翻译任务中,翻译第一个词,Transformer的流程为:
    1. 先将要翻译的句子,一个词一个词的转换为词向量送入编码器层,得到优化过的词向量以及K、V,
    2. 将K、V送入解码器层,并跟解码器层将要翻译的Q进行计算,来找出相匹配的K、V,
    3. 经过线性层和Softmax层得到最后翻译的结果,如下图:
  • 注意:翻译第一个词的时候,还没有已经生成好的词输入进解码器层
  • 在机器翻译任务中,翻译接下来的词,Transformer的流程为:
    1. 先将要翻译的句子,一个词一个词的转换为词向量送入编码器层,得到优化过的词向量以及K、V,
    2. 将K、V送入解码器层,同时,将之前已经生成的词也送入解码器层,并跟解码器层将要翻译的Q进行计算,来找出相匹配的K、V,
    3. 经过线性层和Softmax层得到最后翻译的结果,再将生成的词作为解码器层的输入再重复以上的步骤,当遇到<eos>时最后得到模型的输出,如下图:

Transformer的框架

相关推荐
网易云信2 小时前
Cursor点燃个人开发者,企业级AI为何频频受挫?Agent工厂从提效工具到AI员工的跃迁
人工智能·开源
网易云信2 小时前
解锁触手可及的温暖:网易智企 x Wander Puffs AI 云游泡芙
人工智能
转转技术团队2 小时前
从 PRD 到可验证代码:AI 需求开发闭环实践
人工智能
机器之心3 小时前
飞书让表格变成「AI同事」加入群聊,不打开表就能用表
人工智能·openai
Bigfish_coding3 小时前
前端转agent-【python】-15 AI Agent 可观测性入门:LangFuse 链路追踪、Token 监控与 LLM 质量评估
人工智能
我唔知啊3 小时前
我把 Claude Code 拆成了一间餐厅:从一句话到一次回复,中间到底发生了什么
人工智能
Harry技术3 小时前
02 · Codex 核心概念:代理、沙箱、审批和项目说明书
人工智能
阿里云大数据AI技术4 小时前
Agentic Memory Extension 支持对接主流Agent - 适用于 Claude Code、CodeX等
人工智能·agent
我唔知啊4 小时前
不是让 AI 写代码,我是在指挥 AI 干活:一套打磨出来的 AI 编程工作流
人工智能
ZzT4 小时前
在 GitHub 上 @一下 claude,它自己把 issue 改成 PR
人工智能·开源