AI开发-PyTorch-NLP-One-Hot/Word2Vec/GloVe/FastText

1 需求


2 接口


3 示例

  1. One - Hot Encoding(独热编码)
    • 原理
      • 独热编码是一种简单的词表示方法。对于一个包含个不同单词的词汇表,每个单词被表示为一个长度为的向量。在这个向量中,只有一个元素为 1,表示该单词在词汇表中的位置,其余元素都为 0。例如,词汇表是 ["apple", "banana", "cherry"],"apple" 的独热编码是 [1,0,0],"banana" 是 [0,1,0],"cherry" 是 [0,0,1]。
    • 优点
      • 简单直接,易于理解和实现。可以很方便地将文本中的单词转换为机器可处理的向量形式,用于模型输入。
    • 缺点
      • 高维度和稀疏性:当词汇表很大时,向量维度会很高且非常稀疏。例如,一个有 10000 个单词的词汇表,每个独热向量有 10000 个元素,只有一个 1,这会占用大量存储空间。
      • 缺乏语义信息:无法表示单词之间的语义关系。所有向量之间都是正交的,"apple" 和 "banana" 在向量空间中的距离与它们和一个随机噪声向量的距离相同。
    • 应用场景
      • 适用于简单的分类任务或在模型初期作为初步的单词表示,比如简单的文本情感分类,在数据预处理阶段将单词转换为独热向量输入简单神经网络。
  2. Word2Vec
    • 原理
      • 是一种基于神经网络的词向量生成模型,有两种主要架构:CBOW(Continuous Bag - Of - Words)和 Skip - Gram。
      • CBOW:以一个句子中的上下文单词作为输入,预测中心单词。例如在句子 "The cat sits on the mat" 中,如果中心单词是 "sits",上下文单词(如 "The"、"cat"、"on"、"the"、"mat")作为输入来预测 "sits"。
      • Skip - Gram:与 CBOW 相反,它以中心单词为输入来预测上下文单词。以同样句子为例,给定 "sits" 预测 "The"、"cat"、"on"、"the"、"mat"。
    • 优点
      • 能够生成低维度的密集词向量,通常在几十到几百维之间,相比独热编码大大减少了存储空间。
      • 词向量蕴含语义信息,语义相似的单词在向量空间中的距离相近。例如,"king" 和 "queen" 在向量空间中的距离会比 "king" 和 "apple" 近,因为前两者语义更相关。
    • 缺点
      • 训练过程比较复杂,需要在大规模语料上进行训练才能得到较好的效果。
      • 对低频词的表示可能不够准确,因为低频词在训练过程中出现次数少,模型学习到的信息有限。
    • 应用场景
      • 几乎应用于所有自然语言处理任务。在文本分类中作为词嵌入层输入神经网络,帮助模型理解语义;在机器翻译中用于词向量对齐,提高翻译质量;在文本生成任务中使生成的句子更符合语义逻辑。
  3. GloVe(Global Vectors for Word Representation)
    • 原理
      • GloVe 基于词的共现矩阵来学习词向量。它利用全局的词共现统计信息,通过对词共现概率矩阵进行分解等操作来得到词向量。例如,统计文本中 "apple" 和 "banana" 共同出现的频率,以及它们与其他单词的共现频率,基于这些统计信息构建模型。
    • 优点
      • 结合了全局的词汇统计信息,能够有效地利用大规模文本数据中的词共现关系。
      • 生成的词向量在语义任务上表现良好,对于词汇的语义关系捕捉能力较强,能够很好地反映单词之间的语义相似性和类比关系。
    • 缺点
      • 训练和优化过程可能比较复杂,需要处理大量的共现矩阵相关的数据和参数。
      • 对于动态变化的词汇或特定领域的新词汇,可能需要重新训练或者调整模型才能得到较好的表示。
    • 应用场景
      • 广泛应用于信息检索、文本分类、文本生成等任务。在信息检索中,可以根据词向量的相似性来检索相关的文档;在文本分类中,帮助分类器更好地理解文本语义,提高分类准确性。
  4. FastText
    • 原理
      • 是 Facebook 开发的一种用于文本分类和词向量生成的工具。它在 Word2Vec 的基础上进行了扩展,将单词看作是由字符级 n - grams 组成的。例如,对于单词 "apple",它会考虑 "ap"、"app"、"ple" 等字符 n - grams。这样即使对于未出现在训练语料中的单词,也可以通过其字符 n - grams 来生成词向量。
    • 优点
      • 能够处理低频词和未登录词(OOV)。由于考虑了字符级信息,对于罕见单词或者新单词可以通过字符组合来生成合理的向量表示。
      • 在文本分类任务中有出色的表现,训练速度相对较快,能够在大规模数据集上高效地进行训练。
    • 缺点
      • 对于长文本,由于考虑了字符 n - grams,可能会导致向量维度较高,计算成本增加。
      • 其词向量表示在语义细节上可能不如 Word2Vec 和 GloVe 精细,因为它更侧重于文本分类和处理未登录词。
    • 应用场景
      • 特别适用于文本分类任务,尤其是在处理有大量低频词和新词汇的文本数据集时非常有效。也可用于一些需要快速生成词向量并进行简单语义处理的场景,如短文本分类、话题分类等。

介绍一下Word2Vec的Skip-gram模型和CBOW模型

如何使用GloVe进行词向量训练?

对比FastText与Word2Vec的优缺点


4 参考资料

相关推荐
Jeremy_lf14 分钟前
【生成模型之三】ControlNet & Latent Diffusion Models论文详解
人工智能·深度学习·stable diffusion·aigc·扩散模型
桃花键神1 小时前
AI可信论坛亮点:合合信息分享视觉内容安全技术前沿
人工智能
野蛮的大西瓜1 小时前
开源呼叫中心中,如何将ASR与IVR菜单结合,实现动态的IVR交互
人工智能·机器人·自动化·音视频·信息与通信
CountingStars6192 小时前
目标检测常用评估指标(metrics)
人工智能·目标检测·目标跟踪
tangjunjun-owen2 小时前
第四节:GLM-4v-9b模型的tokenizer源码解读
人工智能·glm-4v-9b·多模态大模型教程
冰蓝蓝2 小时前
深度学习中的注意力机制:解锁智能模型的新视角
人工智能·深度学习
橙子小哥的代码世界2 小时前
【计算机视觉基础CV-图像分类】01- 从历史源头到深度时代:一文读懂计算机视觉的进化脉络、核心任务与产业蓝图
人工智能·计算机视觉
新加坡内哥谈技术3 小时前
苏黎世联邦理工学院与加州大学伯克利分校推出MaxInfoRL:平衡内在与外在探索的全新强化学习框架
大数据·人工智能·语言模型
fanstuck3 小时前
Prompt提示工程上手指南(七)Prompt编写实战-基于智能客服问答系统下的Prompt编写
人工智能·数据挖掘·openai
lovelin+v175030409663 小时前
安全性升级:API接口在零信任架构下的安全防护策略
大数据·数据库·人工智能·爬虫·数据分析