Encoder-only、Decoder-only、Encoder-Decoder 到底长什么样

总图

  1. Encoder-only (BERT 类)

输入 tokens

|

Encoder

|

Encoder

|

Encoder

|

输出表示 vectors

  1. Decoder-only (GPT / LLaMA 类)

输入 tokens

|

Decoder

|

Decoder

|

Decoder

|

逐个预测下一个 token

  1. Encoder-Decoder (T5 类)

输入 tokens 已生成 tokens

| |

Encoder\] \[Decoder

| |

Encoder\] \<---- cross-attn ---- \[Decoder

| |

编码结果 逐个生成输出

它们真正的区别

Encoder-only

  • 只负责"把输入读懂"。

  • 每个词都能同时看到左边和右边。

  • 输出通常是整句或每个 token 的表示,不是天然拿来一直往下写。

  • 典型:BERT

我 爱 北 京 天 安 门

^ 每个词都能看见整句其他词

适合:

  • 分类

  • 匹配

  • 实体识别

  • 检索/排序

Decoder-only

  • 负责"按顺序往下写"。

  • 当前 token 只能看左边,不能看右边,这叫 causal mask。

  • 所以它天然适合生成。

我 爱 北 京

^

只能看左边,预测下一个词

适合:

  • 对话

  • 写作

  • 代码生成

  • 通用生成式任务

典型:

  • GPT

  • LLaMA

Encoder-Decoder

  • 左边先把输入读懂,右边再根据读懂的结果生成输出。

  • Decoder 一边看自己已经生成的内容,一边看 Encoder 给的编码结果。

  • 这里比前两种多了一个关键部件:cross-attention。

输入: "Translate: I love Beijing"

Encoder 先编码整句

Decoder 再一步步生成: "我 爱 北京"

适合:

  • 翻译

  • 摘要

  • 改写

  • 明确的"输入文本 -> 输出文本"任务

典型:

  • T5

再看一张对比表

| 结构 | 看输入方式 | 会不会自然生成 | 代表模型 |

|---|---|---|---|

| Encoder-only | 左右都看 | 不擅长长生成 | BERT |

| Decoder-only | 只看左边 | 最擅长 | GPT、LLaMA |

| Encoder-Decoder | Encoder 全看,Decoder 生成 | 很适合 | T5 |

一句最容易记住的话

  • Encoder-only:先理解

  • Decoder-only:边看边写

  • Encoder-Decoder:先读懂,再翻译/改写/生成

相关推荐
星辰AI16 分钟前
多模态记忆:让 AI Agent 记忆各种类型的信息
人工智能·ai·语言模型
jiayong2316 分钟前
AI架构师面试题库 - 完整汇总文档
人工智能·面试·职场和发展
后端小肥肠30 分钟前
效率狂飙9000%!Codex + HyperFrames 让一篇文章 5 分钟变视频
人工智能·aigc·agent
阿里云大数据AI技术34 分钟前
最佳实践:用 EMR Serverless StarRocks AI Function 实现金融行业文本分类
人工智能
miaowmiaow1 小时前
PSD2Code 近期更新与深度解析:从设计稿到生产级代码的完整技术栈
前端·人工智能·ai编程
云烟成雨TD1 小时前
Spring AI 1.x 系列【33】RAG Advisor 组件与四大分层架构
java·人工智能·spring
lifallen1 小时前
第一章 Agent 为什么会出现
人工智能·ai·ai编程
机器之心1 小时前
小学生画了撇胡子骗过AI年龄验证,硅谷工程师沉默了
人工智能·openai
海兰1 小时前
【文字三国志:第六篇】天命重构,UI组件设计细节
人工智能·ui·语言模型·小程序
计算机安禾1 小时前
【算法分析与设计】第26篇:参数化算法与固定参数可解性理论
大数据·人工智能·算法·机器学习·剪枝