文本表示方法

词向量

独热编码模型和分布式表征模型

独热编码 分布式表征
固定长度的稠密词向量
优点 一个单词一个维度,彼此之间构成标准正交向量组 数字化后的数值可以表示语义上的关系
缺点 稀疏, 词向量维度大导致计算效率低

独热编码会根据语料库中的单词个数,来确定词向量的维度

分布式表征,预先确定词向量的维度,生成的词向量

文本表示方法

基于统计的词向量

词袋模型 Bag of words, BOW

忽略文本中词语的顺序和语法结构 ,将文本视为词的集合,通过词汇表中每个单词在文本中出现的次数来表示文本。

TF-IDF

单词在特定文本中的重要性得分表示为:单词在文本出现的频率和出现改单词的文本数量在语料库中的频率。

基于神经网络的词向量

Word2Vec

Word2Vec 有两种架构:CBOW(Continuous Bag of Words) 和 Skip-Gram。其中,CBOW 是根据上下文来预测中心词,而 Skip-Gram 是根据中心词来预测上下文。

例如:you say goodbye and i say hello.

如果上下文窗口为 1,对于 CBOW 来说,you say goodbye 中的目标预测词为 say,上下文为 you goodbye。

CBOW
训练过程

构建训练集和测试集。

you say goodbye and i say hello.设定上下文窗口为 1.

上下文 目标词
you goodbye say
say and goodbye
goodbye i and
and say i
i hello say
  1. 文本预处理。假设词汇表大小为 V,词向量为 d

word2vec连续词袋模型CBOW详解,使用Pytorch实现 - 知乎

Glove

基于单词的共现矩阵来学习词向量。其中,共现矩阵记录两个单词在语料库中共现的次数。


Transformer 相较于 RNN 的改进

  1. 并行计算
  2. 因为 attention 机制能一次获取全局信息,所以最长计算路径短
  3. 可以捕捉长距离依赖关系
相关推荐
nju_spy1 天前
机器学习 - Kaggle项目实践(8)Spooky Author Identification 作者识别
人工智能·深度学习·机器学习·nlp·tf-idf·glove·南京大学
nju_spy3 天前
机器学习 - Kaggle项目实践(7)NLP with Disaster Tweets 灾难消息
人工智能·深度学习·自然语言处理·bert·tf-idf·glove·南京大学
2202_7567496912 天前
自然处理语言NLP:One-Hot编码、TF-IDF、词向量、NLP特征输入、EmbeddingLayer实现、word2vec
人工智能·深度学习·自然语言处理·tf-idf·word2vec
一粒马豆13 天前
chromadb使用hugging face模型时利用镜像网站下载注意事项
python·embedding·chroma·词嵌入·hugging face·词向量·chromadb
nju_spy17 天前
机器学习 - Kaggle项目实践(4)Toxic Comment Classification Challenge 垃圾评论分类问题
人工智能·深度学习·自然语言处理·tf-idf·南京大学·glove词嵌入·双头gru
fsnine18 天前
机器学习——TF-IDF算法
tf-idf
qqxhb21 天前
零基础数据结构与算法——第七章:算法实践与工程应用-搜索引擎
算法·搜索引擎·tf-idf·倒排索引·pagerank·算法库
赴33525 天前
机器学习 TF-IDF提取关键词,从原理到实践的文本特征提取利器
人工智能·机器学习·tf-idf·sklearn
欧阳小猜1 个月前
机器学习②【字典特征提取、文本特征处理(TF-IDF)、数据标准化与归一化、特征降维】
人工智能·机器学习·tf-idf
合作小小程序员小小店2 个月前
web网页开发,在线%微博,舆情%系统,基于python,pycharm,django,nlp,内容推荐,余弦,线性,TF-IDF,mysql
自然语言处理·django·nlp·html5·tf-idf