【面试题】介绍一下BERT和GPT的训练方式区别？

AI浩2025-09-06 1:33

BERT（双向编码器）：

预训练任务：

掩码语言模型(MLM) ：随机掩盖15%的token，其中：
- 80%替换为[MASK]
- 10%替换为随机token
- 10%保持原样
下一句预测(NSP)：判断两个句子是否连续（后续版本已移除）

训练特点：

使用双向Transformer编码器
同时利用左右上下文信息
适合理解类任务：分类、标注、相似度计算

GPT（自回归解码器）：

预训练任务：

因果语言模型(CLM)：给定前文预测下一个token
只能利用左侧上下文，无法看到右侧信息

训练特点：

使用单向Transformer解码器（带掩码注意力）
通过next token prediction训练
适合生成类任务：文本生成、对话、创作

关键差异：

BERT：双向理解，更适合文本表示学习
GPT：单向生成，更适合序列生成任务
现代大模型（如GPT-3/4）通过scale up和指令微调弥补了单向性的限制

上一篇：数据结构：深度优先搜索 (Depth-First Search, DFS)

下一篇：Leetcode 240. 搜索二维矩阵 II 矩阵 / 二分

热门推荐

01BongoCat - 跨平台键盘猫动画工具 02GitHub 镜像站点 03UV安装并设置国内源 04Linux下V2Ray安装配置指南 05KGG转MP3工具|非KGM文件|解密音频 06两千字总结：Codex 国内如何安装和使用的教程，以及如何设置中文回答 07荣耀手机2025年10月发布的新品Magic8比起Magic7，在硬件、性能、价格等上有什么区别，有什么优势 08Java IO 流 + MinIO：游戏玩家自定义头像上传（格式校验、压缩处理、存储管理）09windows找不到gpedit.msc（本地组策略编辑器）10GitLab 零基础入门指南：从安装到项目管理全流程