文本表示方法

思想在拧紧2025-02-16 17:19

词向量

独热编码模型和分布式表征模型

	独热编码	分布式表征
		固定长度的稠密词向量
优点	一个单词一个维度，彼此之间构成标准正交向量组	数字化后的数值可以表示语义上的关系
缺点	稀疏,	词向量维度大导致计算效率低

独热编码会根据语料库中的单词个数，来确定词向量的维度

分布式表征，预先确定词向量的维度，生成的词向量

文本表示方法

基于统计的词向量

词袋模型 Bag of words, BOW

忽略文本中词语的顺序和语法结构 ，将文本视为词的集合，通过词汇表中每个单词在文本中出现的次数来表示文本。

TF-IDF

单词在特定文本中的重要性得分表示为：单词在文本出现的频率和出现改单词的文本数量在语料库中的频率。

基于神经网络的词向量

Word2Vec

Word2Vec 有两种架构：CBOW(Continuous Bag of Words) 和 Skip-Gram。其中，CBOW 是根据上下文来预测中心词，而 Skip-Gram 是根据中心词来预测上下文。

例如：you say goodbye and i say hello.

如果上下文窗口为 1，对于 CBOW 来说，you say goodbye 中的目标预测词为 say，上下文为 you goodbye。

CBOW

训练过程

构建训练集和测试集。

you say goodbye and i say hello.设定上下文窗口为 1.

上下文	目标词
you goodbye	say
say and	goodbye
goodbye i	and
and say	i
i hello	say

文本预处理。假设词汇表大小为 V，词向量为 d

word2vec连续词袋模型CBOW详解，使用Pytorch实现 - 知乎

Glove

基于单词的共现矩阵来学习词向量。其中，共现矩阵记录两个单词在语料库中共现的次数。

Transformer 相较于 RNN 的改进

并行计算
因为 attention 机制能一次获取全局信息，所以最长计算路径短
可以捕捉长距离依赖关系

上一篇：vscode ESP32配置

下一篇：【算法专场】哈希表

热门推荐

01UV安装并设置国内源 02Qwen3-Coder 快速上手教程 | Qwen Code + Claude Code 03KGG转MP3工具|非KGM文件|解密音频 04【2025.08.06最新版】Android Studio下载、安装及配置记录（自动下载sdk）052025最新国内服务器可用docker源仓库地址大全（2025年8月更新）06蜘蛛磁力搜索引擎大全，如何使用蜘蛛磁力查找磁力链接 07TRAE Rules 实践：为项目配置 6A 工作流 08全球最强模型Grok4，国内已可免费使用！（附教程）09GPT-5 使用限制与国内升级全攻略（免费 / Plus / Pro）【2025 最新】10NVIDIA显卡驱动、CUDA、cuDNN 和 TensorRT 版本匹配指南