十四、自回归(AutoRegressive)和自编码(AutoEncoding)语言模型

参考自回归语言模型(AR)和自编码语言模型(AE)

1 自回归语言模型( AR)

**自回归语言模型(AR)**就是根据上文内容(或下文内容)预测下一个(或前一个)可能跟随的单词,就是常说的自左向右(或自右向左)的语言模型任务,即通过前 t - 1(或后 t - 1 ) 个 tokens 来预测当前时刻 t 的 token,代表的自回归语言模型有 ELMO 和 GPT。

1.1 优点

在处理生成类自然语言处理任务时,就是从左向右的,比如文本摘要,机器翻译等,自回归语言模型天然匹配这个过程。

1.2 缺点

该模型是单向的,只能利用上文或者下文的信息,不能同时利用上文和下文的信息。

2 自编码语言模型( AE**)**

自动编码器的逻辑过程是指原始 input(设为 x)经过加权(W 和 b)、映射(Sigmoid)之后得到 y,再对 y 反向加权映射回来成为 z。通过反复迭代训练(W 和 b),使得误差函数 L(H) 最小,即尽可能保证 z 近似于 x ,即完美重构了 x。那么可以说正向权重(W 和 b)是成功的,很好的学习了 input 中的关键特征。

自动编码器过程图如下:参考自动编码器

**降噪自编码器(Denoising AutoEncoder, DAE)**是指当采用无监督(不需要对训练样本进行标记)的方法分层预训练深度网络的权值时,为了学习到较鲁棒的特征,可以在数据的输入层引入随机噪声。

降噪自编码器过程图如下:

自编码语言模型 的名称来自于降噪自编码器(DAE),是通过上下文单词来预测被 [Mask] 的 token(这些被 [Mask] 掉的单词其实就是在输入端加入的噪音,是典型的 的思路),通俗地被称为"完形填空",代表的自编码语言模型有 Word2Vec(CBOW)和 BERT。

2.1 优点

泛化性强,无监督不需要数据标注,可以自然地融入上下文语义信息。

2.2 缺点

  • 适用于"完形填空"式的训练策略,不适用于生成式的问题;
  • 在预训练 Pre-Training 阶段,引入独立性假设,没有考虑预测 [MASK] 之间的相关性;
  • 输入中引入 [Mask] 这一特殊标记对原始 Token 进行替换,而微调 Fine-Tuning 阶段是没有 [Mask] 标记的,导致预训练阶段和微调阶段的数据不一致。
相关推荐
2501_944934731 天前
产品策划需要哪些数据分析能力?如何用数据验证需求优先级
信息可视化·数据挖掘·数据分析
deardao1 天前
【LLM+时序控制】闭环控制:基于控制理论的可证明稳定时间序列预测框架与大型语言模型
人工智能·语言模型·自然语言处理
babe小鑫1 天前
会计岗位学习数据分析的价值分析
学习·数据挖掘·数据分析
沅_Yuan1 天前
基于核密度估计的CNN-LSTM-Attention-KDE多输入单输出回归模型【MATLAB】
机器学习·回归·cnn·lstm·attention·核密度估计·kde
IT观测1 天前
# 聚焦AI数据分析市场:2026年AI数据分析市场的深度调研与趋势展望报告
人工智能·数据挖掘·数据分析
babe小鑫1 天前
会计转行财务学数据分析指南
数据挖掘·数据分析
lifallen1 天前
Flink Agent:RunnerContext 注入与装配演进分析
java·大数据·人工智能·语言模型·flink
絆人心1 天前
Python 数据分析核心库:Pandas 与 NumPy 从入门到实战全指南(附电商用户分析完整代码)
python·数据挖掘·数据分析·numpy·pandas·数据处理·电商数据分析
YangYang9YangYan1 天前
2026经管专业就业后学习数据分析的价值分析
学习·数据挖掘·数据分析
青春不败 177-3266-05201 天前
基于claude code、codex多AI协同论文写作实战营:跑通数据分析→论文初稿→AI交叉审稿全流程
人工智能·数据挖掘·数据分析·claude