02 Pytorch_NLP

1. N-gram

n决定关联信息

2. TF____IDF

TF:词频

IDF:逆向序列

假如:TF * IDF 就是当前的文件,那么乘积反而更大!

因为它只出现在 特定的文章中!

TF-IDF 简介

TF-IDF(Term Frequency-Inverse Document Frequency)是一种统计方法,用于评估一个词在文档集合中的重要程度。它由两部分组成:

  • TF(词频):一个词在文档中出现的次数。
  • IDF(逆文档频率):该词在整个语料库中出现的频率的逆。

代码示例

下面的代码展示了如何计算一个文本语料库中每个词的TF-IDF值,并将每个句子编码为一个包含这些TF-IDF值的向量。

python 复制代码
from sklearn.feature_extraction.text import TfidfVectorizer

# 示例文档
documents = [
    "The cat sat on the mat",
    "The dog sat on the log",
    "The cat chased the mouse",
    "The dog chased the cat"
]

# 创建TF-IDF向量化器
vectorizer = TfidfVectorizer()

# 对文档进行TF-IDF转换
tfidf_matrix = vectorizer.fit_transform(documents)

# 获取词汇表
feature_names = vectorizer.get_feature_names_out()

# 打印TF-IDF矩阵
print(tfidf_matrix.toarray())

# 打印词汇表
print(feature_names)

代码解释

  1. 创建示例文档:包含四个简单的句子。
  2. 创建TF-IDF向量化器 :使用 TfidfVectorizer 类。
  3. 进行TF-IDF转换 :将文档列表传递给向量化器的 fit_transform 方法,生成TF-IDF矩阵。
  4. 获取词汇表 :使用 get_feature_names_out 方法获取词汇表中的词。
  5. 打印TF-IDF矩阵词汇表:分别打印TF-IDF矩阵和词汇表。

示例输出

假设上述代码的输出如下:

python 复制代码
[[0.        0.        0.        0.469417   0.580285 0.469417   0.469417   0.        0.        0.        0.        ]
 [0.        0.        0.        0.469417   0.580285 0.469417   0.        0.469417   0.        0.        0.        ]
 [0.469417   0.469417   0.        0.        0.        0.        0.469417   0.        0.        0.580285 0.469417   ]
 [0.469417   0.469417   0.469417   0.        0.        0.        0.469417   0.        0.580285 0.        0.        ]]
['cat' 'chased' 'dog' 'log' 'mat' 'mouse' 'on' 'sat' 'the']

每一行对应一个文档,每一列对应一个词汇表中的词。值是该词在该文档中的TF-IDF值。

解释图片中的步骤

  1. 切分所有的词,记词的数量为 n

    • 对文档进行词切分,统计每个词的数量,得到词汇表大小 n。
  2. 计算每个词的 TF-IDF 值

    • 使用上面代码中的 TfidfVectorizer 计算每个词的 TF-IDF 值。
  3. 对每个句子进行编码

    • 使用 TF-IDF 值将每个句子编码为一个向量,向量的维度为 n。如果一个词在句子中出现,其值为该词的 TF-IDF 值,如果未出现则值为 0。
  4. 降维操作

    • 由于 n 可能很大,可以使用 PCA、SVD、LDA 等方法对向量进行降维。

这个过程可以将文档转化为向量表示,便于后续的机器学习和数据分析。

3.Word2Vec算法简

相关推荐
SEU-WYL27 分钟前
基于深度学习的任务序列中的快速适应
人工智能·深度学习
OCR_wintone42129 分钟前
中安未来 OCR—— 开启高效驾驶证识别新时代
人工智能·汽车·ocr
matlabgoodboy39 分钟前
“图像识别技术:重塑生活与工作的未来”
大数据·人工智能·生活
最近好楠啊1 小时前
Pytorch实现RNN实验
人工智能·pytorch·rnn
OCR_wintone4211 小时前
中安未来 OCR—— 开启文字识别新时代
人工智能·深度学习·ocr
学步_技术1 小时前
自动驾驶系列—全面解析自动驾驶线控制动技术:智能驾驶的关键执行器
人工智能·机器学习·自动驾驶·线控系统·制动系统
IFTICing1 小时前
【文献阅读】Attention Bottlenecks for Multimodal Fusion
人工智能·pytorch·python·神经网络·学习·模态融合
程序猿阿伟1 小时前
《C++游戏人工智能开发:开启智能游戏新纪元》
c++·人工智能·游戏
神一样的老师1 小时前
讯飞星火编排创建智能体学习(四):网页读取
人工智能·学习·语言模型·自然语言处理
chiikawa&q2 小时前
深度学习的未来:推动人工智能进化的新前沿
人工智能·深度学习