Encoder-only、Decoder-only、Encoder-Decoder 到底长什么样

总图

  1. Encoder-only (BERT 类)

输入 tokens

|

Encoder

|

Encoder

|

Encoder

|

输出表示 vectors

  1. Decoder-only (GPT / LLaMA 类)

输入 tokens

|

Decoder

|

Decoder

|

Decoder

|

逐个预测下一个 token

  1. Encoder-Decoder (T5 类)

输入 tokens 已生成 tokens

| |

Encoder\] \[Decoder

| |

Encoder\] \<---- cross-attn ---- \[Decoder

| |

编码结果 逐个生成输出

它们真正的区别

Encoder-only

  • 只负责"把输入读懂"。

  • 每个词都能同时看到左边和右边。

  • 输出通常是整句或每个 token 的表示,不是天然拿来一直往下写。

  • 典型:BERT

我 爱 北 京 天 安 门

^ 每个词都能看见整句其他词

适合:

  • 分类

  • 匹配

  • 实体识别

  • 检索/排序

Decoder-only

  • 负责"按顺序往下写"。

  • 当前 token 只能看左边,不能看右边,这叫 causal mask。

  • 所以它天然适合生成。

我 爱 北 京

^

只能看左边,预测下一个词

适合:

  • 对话

  • 写作

  • 代码生成

  • 通用生成式任务

典型:

  • GPT

  • LLaMA

Encoder-Decoder

  • 左边先把输入读懂,右边再根据读懂的结果生成输出。

  • Decoder 一边看自己已经生成的内容,一边看 Encoder 给的编码结果。

  • 这里比前两种多了一个关键部件:cross-attention。

输入: "Translate: I love Beijing"

Encoder 先编码整句

Decoder 再一步步生成: "我 爱 北京"

适合:

  • 翻译

  • 摘要

  • 改写

  • 明确的"输入文本 -> 输出文本"任务

典型:

  • T5

再看一张对比表

| 结构 | 看输入方式 | 会不会自然生成 | 代表模型 |

|---|---|---|---|

| Encoder-only | 左右都看 | 不擅长长生成 | BERT |

| Decoder-only | 只看左边 | 最擅长 | GPT、LLaMA |

| Encoder-Decoder | Encoder 全看,Decoder 生成 | 很适合 | T5 |

一句最容易记住的话

  • Encoder-only:先理解

  • Decoder-only:边看边写

  • Encoder-Decoder:先读懂,再翻译/改写/生成

相关推荐
youcans_5 小时前
【HALCON机器视觉实战】专栏介绍
图像处理·人工智能·计算机视觉·halcon
火山引擎开发者社区5 小时前
火山引擎 veRoCE 获权威认证:IANA 官方为 veRoCE 分配专属 UDP 端口号 4794
人工智能
飘落的数码折腾日记5 小时前
你的AI Agent可能正在“叛变“ | 5类真实威胁与四层防御
人工智能
放羊郎5 小时前
基于ORB-SLAM2算法的优化工作
人工智能·算法·计算机视觉
AI袋鼠帝6 小时前
字节的技术决心,都藏在这个动作里
人工智能
AI袋鼠帝6 小时前
企微又偷偷进化AI,并开始不对劲了..
人工智能
工业机器人销售服务6 小时前
2026 年,探索专业伯朗特机器人的奇妙世界
人工智能·机器人
摆烂大大王6 小时前
AI 日报|2026年5月9日:四部门力推AI与能源双向赋能,AI终端国标出台,中国大模型融资潮涌
人工智能
萑澈6 小时前
编程能力强和多模态模型的模型后训练
人工智能·深度学习·机器学习
LaughingZhu6 小时前
Product Hunt 每日热榜 | 2026-05-08
人工智能·经验分享·深度学习·神经网络·产品运营