NLP语言模型训练里的特殊向量

1. CLS 向量和 DEC 向量的区别及训练方式

(1) CLS 向量与 DEC 向量是否都是特殊 token?

CLS 向量([CLS] token)和 DEC 向量(Decoder Input token)都是特殊的 token,但它们出现在不同类型的 NLP 模型中,并承担不同的功能。

  1. CLS 向量([CLS] token)

    • 主要出现在 BERT 类的双向 Transformer 编码器模型中,比如 BERT、RoBERTa、ALBERT 等。
    • 用于表示整个输入序列的全局信息,常用于分类任务(如情感分析、文本匹配)。
    • 具体机制:
      • 在 BERT 预训练阶段,[CLS] token 被加在输入文本的最前面。
      • 经过 Transformer 编码层后,输出的 CLS 向量聚合了整个文本的信息,最终送入分类头进行任务训练。
      • 例如,在情感分类任务中,CLS 向量会经过全连接层和 softmax 变换,输出正负类别概率。
  2. DEC 向量(Decoder Input token)

    • 主要出现在 Encoder-Decoder 结构的模型中,比如 Transformer(用于机器翻译)、T5(用于文本生成)等。
    • 充当解码器的初始输入,通常由 <bos>(begin-of-sequence) 或者 <s>(start token)表示。
    • 具体机制:
      • 训练时,Decoder 需要一个起始 token(例如 <bos>),然后依赖 Encoder 的输出和已生成的部分自回归地预测下一个 token。
      • 生成过程中,每个时间步的 DEC 向量都会影响下一个 token 的生成。

(2) CLS 向量和 DEC 向量如何初始化?

  • CLS 向量初始化

    在 BERT 预训练时,[CLS] token 的初始向量与普通词向量一样,随机初始化,并在训练过程中通过梯度下降不断优化。

  • DEC 向量初始化

    在 Transformer 类模型中,DEC token 也通常是随机初始化的,但是不同的模型可能采用不同的方法:

    • 在 T5 这种预训练模型中,Decoder 的输入采用的是预训练时学习到的 <s> token 。
    • 在机器翻译任务中,Decoder 可能使用源语言的 <bos> 作为起点。

(3) CLS 向量和 DEC 向量如何参与训练?

  • CLS 向量的训练方式:

    • 在 BERT 预训练任务(如 Masked Language Model 和 Next Sentence Prediction)中,CLS 向量是计算句子级别任务损失的关键部分。
    • 在下游任务中(如文本分类),CLS 向量会经过额外的线性层,用于预测类别标签。
  • DEC 向量的训练方式:

    • 参与自回归训练,即在训练时,Decoder 只能够看到之前的词,而预测当前时间步的目标词(Teacher Forcing 机制)。
    • 目标是最大化正确序列的似然,使得 DEC 向量能够学习如何有效指导解码器生成合理的输出。

(4) CLS 向量和 DEC 向量本质上是否相同?

从数学本质上看,它们都是高维向量(embedding),但在模型设计上:

  • CLS 向量用于编码文本全局语义,属于 Encoder 端的产物。
  • DEC 向量用于自回归地指导序列生成,属于 Decoder 端的输入。
  • 区别主要体现在训练方式、任务目标和语义作用上。

2. 分类损失(如交叉熵) vs. 语言模型损失(如负对数似然)

这两种损失都用于 NLP 任务,但应用场景不同。

(1) 分类损失(Cross Entropy, CE)

  • 适用任务: 用于文本分类、命名实体识别(NER)、情感分析等任务。

  • 计算方式:

    • 先计算模型输出的类别概率分布:
      p i = softmax ( z i ) p_i = \text{softmax}(z_i) pi=softmax(zi)
    • 再计算真实类别 ( y ) 与预测类别 ( p ) 之间的交叉熵:
      L = − ∑ i y i log ⁡ p i L = -\sum_{i} y_i \log p_i L=−i∑yilogpi
  • 特点:

    • 仅在整个输入上计算一个类别概率,而不涉及逐 token 预测。

(2) 语言模型损失(Negative Log Likelihood, NLL)

  • 适用任务: 用于文本生成、机器翻译、问答任务(如 GPT、T5)。

  • 计算方式:

    • 语言模型在训练时,目标是最大化正确序列的似然概率 ,其损失形式为:
      L = − ∑ t log ⁡ p ( y t ∣ y < t , x ) L = -\sum_{t} \log p(y_t | y_{<t}, x) L=−t∑logp(yt∣y<t,x)
    • 这里,( y_t ) 是第 ( t ) 个时间步的目标词,( y_{<t} ) 代表已生成的部分,( x ) 是输入序列(如果是 Encoder-Decoder)。
  • 特点:

    • 逐 token 计算损失,关注序列的生成概率。
    • 在自回归(Auto-regressive)任务中,每个 token 预测结果依赖前面已生成的部分。

(3) 两者的主要区别

分类损失(CE) 语言模型损失(NLL)
任务类型 句子级别任务(分类) 逐 token 预测任务(生成)
计算方式 计算整个文本的类别概率 计算每个 token 的预测概率
是否自回归

3. 自回归(Autoregressive, AR)

(1) 自回归的定义

自回归(Autoregressive)是一种序列建模方法,当前时间步的预测依赖于过去的输出

(2) 为什么叫"自回归"?

  • "回归" 这个术语在统计学中表示根据历史数据预测未来值。
  • "自" 指的是模型的输入来自于自己之前的预测。
  • 因此,自回归 = "使用自身过去的信息来预测未来"

(3) NLP 中的自回归模型

  • GPT(Generative Pre-trained Transformer)

    • 在第 ( t ) 个时间步,只能看到 ( y_1, y_2, \ldots, y_{t-1} ) 这些前面的 token,不能看到未来的信息。

    • 预测方式:
      p ( y t ∣ y < t ) p(y_t | y_{<t}) p(yt∣y<t)

    • 依赖"过去的输出"来预测下一个词,典型的自回归结构。

  • BERT 不是自回归模型

    • BERT 是 双向 Transformer,训练时可以看到整个输入,因此它不是自回归模型。

(4) 自回归的应用

  • 语言模型(GPT、XLNet)
  • 机器翻译(Transformer Decoder)
  • 语音生成(WaveNet)

总结

  1. CLS 向量和 DEC 向量本质上都是向量,但用途不同

    • CLS 向量用于文本分类、全局表征;
    • DEC 向量用于解码器输入,引导文本生成。
  2. 分类损失 vs. 语言模型损失

    • 交叉熵用于整体分类;
    • 负对数似然用于逐 token 预测。
  3. 自回归(Auto-regressive)是指依赖自身过去输出进行预测,GPT 等生成模型采用这一机制。


在 NLP 任务中,<s><bos> 都是 特殊 token,但它们的使用方式略有不同,取决于具体的模型和任务。

1. <s>(Start-of-Sequence Token)

<s> 代表 序列的起始 token,在不同的模型中用途不同:

  • 在 T5 模型(Text-to-Text Transfer Transformer)中:

    • T5 是一个 Encoder-Decoder 结构的 Transformer,所有任务都被转换成文本生成任务。

    • 在 T5 的 Decoder 中,解码输入(Decoder Input)以 <s> 作为起始 token,然后逐步生成后续 token。

    • 训练时:

      复制代码
      输入 (Encoder Input) = "Translate English to French: I love NLP"
      目标输出 (Decoder Target) = "<s> J'aime le NLP </s>"
    • 预测时:

      • <s> 提供解码起点,模型基于 Encoder 的输出和 <s> 生成下一个 token。
  • 在 BART(Bidirectional and Auto-Regressive Transformer)模型中:

    • BART 也是 Encoder-Decoder 结构,用于文本填充、摘要等任务
    • <s> 用于标识句子开始,在 BART 预训练阶段,模型可能会恢复丢失的 <s> token
  • 在一些 NLP 任务中

    • <s> 也可以作为整个句子或段落的起点,类似于 [CLS](BERT 中用于分类任务的 token)。

2. <bos>(Beginning-of-Sequence Token)

<bos> 代表 序列的开始 ,用于 自回归(Auto-regressive)解码

  • 在机器翻译(MT)任务中

    • Transformer 结构的 Decoder 需要一个起始 token,通常用 <bos> 作为 Decoder 的输入。

    • 例如:

      复制代码
      源语言输入 (Encoder Input): "I love NLP"
      目标输出 (Decoder Target): "<bos> J'aime le NLP <eos>"
    • 在训练时,Decoder 会在 <bos> 之后一个个预测目标语言的 token,直到遇到 <eos>(end-of-sequence)。

  • 在 GPT 这样的自回归模型中

    • GPT 主要用于文本生成任务,如对话、摘要。
    • <bos> 告诉模型"文本从这里开始",然后 GPT 依次预测下一个 token。

3. <s><bos> 的区别

Token 常见用途 典型模型
<s> (Start-of-Sequence) 句子/段落的起点,用于 Encoder-Decoder 任务 T5、BART
<bos> (Beginning-of-Sequence) 自回归生成的起始 token,特别用于解码 GPT、Transformer Decoder
  • 如果是 Encoder-Decoder 结构(如 T5、BART) ,一般使用 <s> 作为起始 token。
  • 如果是 仅 Decoder 结构(如 GPT) ,则使用 <bos> 作为文本生成的起始 token。
相关推荐
城电科技2 分钟前
城电科技|零碳美丽示范村建设方案 能源+景观+教育
人工智能·科技·生活·能源
opentrending5 小时前
Github 热点项目 awesome-mcp-servers MCP 服务器合集,3分钟实现AI模型自由操控万物!
服务器·人工智能·github
lisw055 小时前
DeepSeek原生稀疏注意力(Native Sparse Attention, NSA)算法介绍
人工智能·深度学习·算法
whaosoft-1435 小时前
51c深度学习~合集4
人工智能
逢生博客6 小时前
阿里 FunASR 开源中文语音识别大模型应用示例(准确率比faster-whisper高)
人工智能·python·语音识别·funasr
哲讯智能科技6 小时前
智慧能源新篇章:SAP如何赋能光伏行业数字化转型
大数据·人工智能
云卓SKYDROID6 小时前
无人机DSP处理器工作要点!
人工智能·无人机·科普·云卓科技
gang_unerry6 小时前
量子退火与机器学习(2):少量实验即可找到新材料,黑盒优化➕量子退火
人工智能·机器学习·量子计算·量子退火
訾博ZiBo6 小时前
AI日报 - 2025年4月2日
人工智能
说私域7 小时前
消费品行业创新创业中品类创新与数字化工具的融合:以开源 AI 智能客服、AI 智能名片及 S2B2C 商城小程序为例
人工智能·小程序·开源