大语言模型-GLM-General Language Model Pretraining

GLM是2020-2021年由智谱AI研究并发布的预训练语言模型。

GLM是一种基于自回归空白填充的通用预训练语言模型。

GLM 通过添加二维位置编码和允许任意顺序预测空白区域，改进了空白填充预训练，在NLU任务上超越了 BERT 和 T5。

GLM的网络架构使用的是多层Transformer Decoder改的结构。

GLM是一种基于自回归空白填充的通用预训练语言模型。

从λ = 3的泊松分布中随机抽取MASK的片段长度。反复采样新的跨度片段长度，直到至少15%的原始令牌被屏蔽。根据经验，我们发现15%的比例对于下游NLU任务的良好表现至关重要

对词汇级别的短文本区域进行Mask，适合于 NLU 任务; 要达到NLU任务目标的同时具备一定的长文本生成能力，设定了下面两个任务训练目标，来同时优化文本任务与空白填充任务。

• 文档级别。随机抽样一个片段，其长度从原始长度的50％到100％的均匀分布中抽样。该目标旨在进行长文本生成。

• 句子级别。限制掩蔽片段必须是完整的句子。随机抽样多个片段（句子）以覆盖15％的词汇。此目标旨在进行seq2seq任务，其预测通常为完整的句子或段落。

这两个新目标与原始目标相同。唯一的区别在于遮掩片段的数量和长度。