大模型-模型预训练-预训练任务

静能生慧2024-09-23 21:57

一、简介

1、预训练任务目的

设计合适的自监督训练任务，使得模型能够从海量五标注数据中学习到广泛的语义知识与世界知识

2、常见预训练任务

语言建模
去噪自编码
混合去噪器

二、语言建模

1、特点

被目前绝大多数模型采用
核心在于预测下一个词元
经常被用于训练基于解码器架构的大模型
是一种多任务学习过程，可同时学习到生成时用到的相关知识与能力

2、任务内容

基于前序内容生成或预测后续内容

3、变种

前缀语言建模
- 特点：主要应用与采用前缀解码器架构的大模型
- 缺点：由于总损失仅计算后缀词元，性能稍逊于使用标准语言建模任务进行预训练的模型
中间任务填充
- 任务内容：训练模型对于中间部分文本的预测生成能力
- 特点：
  - 常用于作为标准语言建模任务的辅助任务
  - 通常用于训练代码预训练模型，提升模型代码补全能力

4、应用情况

应用范围：被绝大部分大模型采用
代表模型：GPT

三、去噪自编码

1、特点

实现比语言建模复杂，需要设定额外的优化策略，如词元替换策略、替换片段长度、替换词元比例

2、任务内容

输入文本经过一系列替换或删除，形成损坏文本，模型任务目标是根据损坏文本恢复出被替换或删除的片段

3、应用情况

应用范围：比语言建模应用少
代表模型：BERT、T5等模型

四、混合去噪器

1、任务内容

又称UL2损失，通过将语言建模和去噪自编码的目标均视为不同的去噪任务，对于预训练任务进行了统一建模

2、组成

S-去噪器
R-去噪器
X-去噪器

3、特点

S-去噪器与前缀语言建模目标相同
R-去噪器、X-去噪器与去噪自编码目标相似，二者在被掩盖（删除）片段的跨度以及损坏比例上有区别，R-去噪器掩盖比例约为15%，每个被掩盖片段包含3-5个词元；X-去噪器掩盖比例约为50%，每个被掩盖片段包含12个词元以上

4、如何选择去噪器

在句子开头设置特定词元（比如R、X、S）标记去噪器类型

5、应用情况

应用范围：较小
代表模型：UL2、PaLM2等

上一篇：智谱清影 CogVideoX-2b：深度解析部署流程与高效使用指南

下一篇：【Unity编辑器扩展】解决uGUI动效痛点零代码可视化快速制作UI动效 DOTween Sequence可视化

热门推荐

01BongoCat - 跨平台键盘猫动画工具 02GitHub 镜像站点 03UV安装并设置国内源 04Linux下V2Ray安装配置指南 05KGG转MP3工具|非KGM文件|解密音频 06两千字总结：Codex 国内如何安装和使用的教程，以及如何设置中文回答 07荣耀手机2025年10月发布的新品Magic8比起Magic7，在硬件、性能、价格等上有什么区别，有什么优势 08GitLab 零基础入门指南：从安装到项目管理全流程 09windows找不到gpedit.msc（本地组策略编辑器）10NVIDIA显卡驱动、CUDA、cuDNN 和 TensorRT 版本匹配指南