大语言模型-GLM-General Language Model Pretraining

一、背景信息:

GLM是2020-2021年由智谱AI研究并发布的预训练语言模型。

GLM是一种基于自回归空白填充的通用预训练语言模型。

GLM 通过添加二维位置编码允许任意顺序预测空白区域,改进了空白填充预训练,在NLU任务上超越了 BERT 和 T5。

GLM的网络架构使用的是多层Transformer Decoder改的结构。

二、整体结构:

  • Pre-Norm,前归一化:将Layer Normalization步骤放置在各模块之前进行。
  • DeepNorm, 归一化函数的调整:GLM的Layer Normalization使用了DeepNorm方式。
  • RoPE, 位置编码的调整: GLM不再位置向量合成输入向量,而是在每次Attention时进行RoPE的位置向量编码。
  • GLU, FFN层激活函数调整:FFN使用具有GeLU激活的GLU作为激活函数。

三、GLM训练

GLM是一种基于自回归空白填充的通用预训练语言模型。

(1)自回归空白填充

自回归空白填充目标
  1. 给定输入 X = [x1, x2, x3, x3, x5, x6]
  2. 将选择掩码的片段 [x3], [x5, x6] 进行MASK,得到 Part A,表示损坏后的文本( 见图中的(a) )
  3. 将选择掩码的片段抽取出,并且随机排序 / shuffle,得到 Part B,表示被掩盖、需要填充的文本( 见图中的(b) )
  4. 将 PartA 与 PartB 拼接成一个sequence,Part A部分采用双向注意力,PartB部分采样自回归预测。( 见图中的© )

从λ = 3的泊松分布中随机抽取MASK的片段长度。反复采样新的跨度片段长度,直到至少15%的原始令牌被屏蔽。根据经验,我们发现15%的比例对于下游NLU任务的良好表现至关重要

attention mask的设计
  • Part A作为初始输入,其tokens之间应该互相可见,但是不能见到被MASK的(下文即Part B中的tokens)
  • PartB中的tokens肯定是要能看见Part A的tokens的(文本生成需要能看到上文)
  • PartB中应该能见到历史生成的token,但不可见尚未生成的token。
  • 这里其实是组合了双向的attention(Part A)和causal attention(Part B)。

(2)多任务预训练

对词汇级别的短文本区域进行Mask,适合于 NLU 任务; 要达到NLU任务目标的同时具备一定的长文本生成能力,设定了下面两个任务训练目标,来同时优化文本任务与空白填充任务。

• 文档级别。随机抽样一个片段,其长度从原始长度的50%到100%的均匀分布中抽样。该目标旨在进行长文本生成。

• 句子级别。限制掩蔽片段必须是完整的句子。随机抽样多个片段(句子)以覆盖15%的词汇。此目标旨在进行seq2seq任务,其预测通常为完整的句子或段落。

这两个新目标与原始目标相同。唯一的区别在于遮掩片段的数量和长度。

Reference

1、GLM: General Language Model Pretraining with Autoregressive Blank Infilling

相关推荐
白熊1887 分钟前
【计算机视觉】OpenCV实战项目: Fire-Smoke-Dataset:基于OpenCV的早期火灾检测项目深度解析
人工智能·opencv·计算机视觉
↣life♚15 分钟前
从SAM看交互式分割与可提示分割的区别与联系:Interactive Segmentation & Promptable Segmentation
人工智能·深度学习·算法·sam·分割·交互式分割
zqh1767364646921 分钟前
2025年阿里云ACP人工智能高级工程师认证模拟试题(附答案解析)
人工智能·算法·阿里云·人工智能工程师·阿里云acp·阿里云认证·acp人工智能
程序员小杰@35 分钟前
【MCP教程系列】SpringBoot 搭建基于 Spring AI 的 SSE 模式 MCP 服务
人工智能·spring boot·spring
上海锝秉工控39 分钟前
智能视觉检测技术:制造业质量管控的“隐形守护者”
人工智能·计算机视觉·视觉检测
绿算技术42 分钟前
“强强联手,智启未来”凯创未来与绿算技术共筑高端智能家居及智能照明领域新生态
大数据·人工智能·智能家居
TGITCIC1 小时前
为何大模型都使用decoder-only?
人工智能·大模型·transformer·ai agent·大模型面试·ai面试
ghie90901 小时前
x-IMU matlab zupt惯性室内定位算法
人工智能·算法·matlab
carpell1 小时前
【语义分割专栏】先导篇:评价指标(PA,CPA,IoU,mIoU,FWIoU,F1)
人工智能·计算机视觉·语义分割
想要成为计算机高手1 小时前
OpenVLA:开源的视觉-语言-动作模型
ai·自然语言处理·开源·大模型·视觉处理·openvla