Encoder-only、Decoder-only、Encoder-Decoder 到底长什么样

总图

  1. Encoder-only (BERT 类)

输入 tokens

|

Encoder

|

Encoder

|

Encoder

|

输出表示 vectors

  1. Decoder-only (GPT / LLaMA 类)

输入 tokens

|

Decoder

|

Decoder

|

Decoder

|

逐个预测下一个 token

  1. Encoder-Decoder (T5 类)

输入 tokens 已生成 tokens

| |

Encoder\] \[Decoder

| |

Encoder\] \<---- cross-attn ---- \[Decoder

| |

编码结果 逐个生成输出

它们真正的区别

Encoder-only

  • 只负责"把输入读懂"。

  • 每个词都能同时看到左边和右边。

  • 输出通常是整句或每个 token 的表示,不是天然拿来一直往下写。

  • 典型:BERT

我 爱 北 京 天 安 门

^ 每个词都能看见整句其他词

适合:

  • 分类

  • 匹配

  • 实体识别

  • 检索/排序

Decoder-only

  • 负责"按顺序往下写"。

  • 当前 token 只能看左边,不能看右边,这叫 causal mask。

  • 所以它天然适合生成。

我 爱 北 京

^

只能看左边,预测下一个词

适合:

  • 对话

  • 写作

  • 代码生成

  • 通用生成式任务

典型:

  • GPT

  • LLaMA

Encoder-Decoder

  • 左边先把输入读懂,右边再根据读懂的结果生成输出。

  • Decoder 一边看自己已经生成的内容,一边看 Encoder 给的编码结果。

  • 这里比前两种多了一个关键部件:cross-attention。

输入: "Translate: I love Beijing"

Encoder 先编码整句

Decoder 再一步步生成: "我 爱 北京"

适合:

  • 翻译

  • 摘要

  • 改写

  • 明确的"输入文本 -> 输出文本"任务

典型:

  • T5

再看一张对比表

| 结构 | 看输入方式 | 会不会自然生成 | 代表模型 |

|---|---|---|---|

| Encoder-only | 左右都看 | 不擅长长生成 | BERT |

| Decoder-only | 只看左边 | 最擅长 | GPT、LLaMA |

| Encoder-Decoder | Encoder 全看,Decoder 生成 | 很适合 | T5 |

一句最容易记住的话

  • Encoder-only:先理解

  • Decoder-only:边看边写

  • Encoder-Decoder:先读懂,再翻译/改写/生成

相关推荐
Flying pigs~~2 小时前
Dify平台入门指南:开源LLM应用开发平台深度解析
人工智能·开源·大模型·agent·dify·rag
PD我是你的真爱粉2 小时前
Dify 与 LangGraph 图执行引擎原理对比:从定义层到运行时的架构拆解
人工智能·python·架构
林深时见鹿v2 小时前
《后端开发全栈工具安装踩坑指南 & 经验沉淀手册》
java·人工智能·python·oracle
扬帆破浪2 小时前
察元 WPS AI助手技术手记:从源码构建到各平台安装与上手
人工智能·wps
zero.cyx2 小时前
更换Live2D模型具体步骤
人工智能·计算机视觉·语音识别
阿星AI工作室2 小时前
Codex登录又崩了?零基础用CCSwitch秒连教程
人工智能
扬帆破浪2 小时前
察元 WPS AI插件:工程边界与阅读地图
人工智能·开源·wps
量子-Alex2 小时前
【大模型智能体】智能体技能:面向大语言模型功能扩展的Claude技能数据驱动分析
人工智能·语言模型·自然语言处理
小芝麻咿呀2 小时前
边缘计算网关-EG8200Mini导轨版
java·人工智能·边缘计算