十四、自回归(AutoRegressive)和自编码(AutoEncoding)语言模型

参考自回归语言模型(AR)和自编码语言模型(AE)

1 自回归语言模型( AR)

**自回归语言模型(AR)**就是根据上文内容(或下文内容)预测下一个(或前一个)可能跟随的单词,就是常说的自左向右(或自右向左)的语言模型任务,即通过前 t - 1(或后 t - 1 ) 个 tokens 来预测当前时刻 t 的 token,代表的自回归语言模型有 ELMO 和 GPT。

1.1 优点

在处理生成类自然语言处理任务时,就是从左向右的,比如文本摘要,机器翻译等,自回归语言模型天然匹配这个过程。

1.2 缺点

该模型是单向的,只能利用上文或者下文的信息,不能同时利用上文和下文的信息。

2 自编码语言模型( AE**)**

自动编码器的逻辑过程是指原始 input(设为 x)经过加权(W 和 b)、映射(Sigmoid)之后得到 y,再对 y 反向加权映射回来成为 z。通过反复迭代训练(W 和 b),使得误差函数 L(H) 最小,即尽可能保证 z 近似于 x ,即完美重构了 x。那么可以说正向权重(W 和 b)是成功的,很好的学习了 input 中的关键特征。

自动编码器过程图如下:参考自动编码器

**降噪自编码器(Denoising AutoEncoder, DAE)**是指当采用无监督(不需要对训练样本进行标记)的方法分层预训练深度网络的权值时,为了学习到较鲁棒的特征,可以在数据的输入层引入随机噪声。

降噪自编码器过程图如下:

自编码语言模型 的名称来自于降噪自编码器(DAE),是通过上下文单词来预测被 Mask 的 token(这些被 Mask 掉的单词其实就是在输入端加入的噪音,是典型的 的思路),通俗地被称为"完形填空",代表的自编码语言模型有 Word2Vec(CBOW)和 BERT。

2.1 优点

泛化性强,无监督不需要数据标注,可以自然地融入上下文语义信息。

2.2 缺点

  • 适用于"完形填空"式的训练策略,不适用于生成式的问题;
  • 在预训练 Pre-Training 阶段,引入独立性假设,没有考虑预测 MASK 之间的相关性;
  • 输入中引入 Mask 这一特殊标记对原始 Token 进行替换,而微调 Fine-Tuning 阶段是没有 Mask 标记的,导致预训练阶段和微调阶段的数据不一致。
相关推荐
程序员猫哥_11 小时前
AI建站工具选型指南:不同模式对比与核心筛选标准
数据挖掘
V搜xhliang024612 小时前
临床科研新范式:从选题到投稿,AI智能体如何接管全流程?
运维·数据结构·人工智能·算法·microsoft·数据挖掘·自动化
东方佑16 小时前
可学习破坏策略:实现大语言模型二倍推理加速的统一自洽框架
人工智能·学习·语言模型
清辞85318 小时前
入门大模型工程师第四课----通过RAG增强大模型原本无法回答的问题
大数据·人工智能·学习·语言模型
科研小刘带你玩学术19 小时前
【科研快报】AI时代如何高效“组队“?计算社会选择理论带来新思路
数据挖掘·数据分析·計算社會選擇·委員會選舉·參數化複雜性分析
王哈哈^_^20 小时前
YOLO分类任务训练教程:从数据准备到模型部署全流程
人工智能·yolo·计算机视觉·分类·数据挖掘
酉鬼女又兒20 小时前
零基础入门计算机网络:物理层核心知识全解——传输方式分类、编码调制原理与信道极限容量计算
网络·计算机网络·考研·职场和发展·分类·数据挖掘·php
kylin-运维20 小时前
VoxCPM 2.0 离线部署
语言模型·voxcpm
keyanbanyungong1 天前
告别盗版素材!自带版权的科研绘图工具
信息可视化·数据挖掘·数据分析
YangYang9YangYan1 天前
2026产品运营学数据分析能否提升职场竞争力
数据挖掘·数据分析·产品运营