【大模型基础】P2 Bag-of-Words

目录

  • [词袋模型 概述](#词袋模型 概述)
  • [词袋模型 实例](#词袋模型 实例)
    • [第1步 构建语料库](#第1步 构建语料库)
    • [第2步 对句子进行分词](#第2步 对句子进行分词)
    • [第3步 创建词汇表](#第3步 创建词汇表)
    • [第4步 转换词袋表示](#第4步 转换词袋表示)
    • [第5步 计算余弦相似度](#第5步 计算余弦相似度)
  • 词袋模型的局限性

词袋模型 概述

词袋模型,Bag-of-Words,是一种简单的文本表示方法,也是 NLP 中的一个经典模型。

它将文本中的词看作一个个独立的个体,不考虑它们在句子中的顺序,只关心每个词出现的频次。

e . g . e.g. e.g. 比如我们有两个句子

python 复制代码
+ "我喜欢吃苹果"
+ "苹果是我喜欢的水果"

词袋模型会将这两个句子表示成如下向量:

python 复制代码
+ {"我": 1, "喜欢": 1, "吃": 1, "苹果": 1}
+ {"苹果": 1, "是": 1, "我": 1, "喜欢": 1, "的": 1, "水果": 1}

而后,词袋模型通过比较两个向量之间的相似度,判断其关联性的强弱


词袋模型 实例

第1步 构建语料库

python 复制代码
# 构建语料库
corpus = ["我特别特别喜欢看电影", 
          "这部电影真的是很好看的电影", 
          "今天天气真好是难得的好天气", 
          "我今天去看了一部电影", 
          "电影院的电影都很好看"]

第2步 对句子进行分词

使用 jieba 包对句子进行分词。

python 复制代码
# 对句子进行分词
import jieba

corpus_tokenized = [list(jieba.cut(sentence)) for sentence in corpus]
corpus_tokenized

结果:

python 复制代码
[['我', '特别', '特别', '喜欢', '看', '电影'],
 ['这部', '电影', '真的', '是', '很', '好看', '的', '电影'],
 ['今天天气', '真好', '是', '难得', '的', '好', '天气'],
 ['我', '今天', '去', '看', '了', '一部', '电影'],
 ['电影院', '的', '电影', '都', '很', '好看']]

第3步 创建词汇表

根据分词结果,创建该语料库的词汇表,其中每一个词对应一个编号。

python 复制代码
# 创建词汇表
word_dict = {}
for sentence in corpus_tokenized:
    for word in sentence:
        if word not in word_dict:
            word_dict[word] = len(word_dict)

word_dict

结果:

python 复制代码
{'我': 0,
 '特别': 1,
 '喜欢': 2,
 '看': 3,
 '电影': 4,
 '这部': 5,
 '真的': 6,
 '是': 7,
 '很': 8,
 '好看': 9,
 '的': 10,
 '今天天气': 11,
 '真好': 12,
 '难得': 13,
 '好': 14,
 '天气': 15,
 '今天': 16,
 '去': 17,
 '了': 18,
 '一部': 19,
 '电影院': 20,
 '都': 21}

第4步 转换词袋表示

由第三步可知,该词袋长度为 21,故对该语料库中5句话的每句话转换词袋表示。长度均为21,按照该词在该句中出现的次数表示为句向量。

python 复制代码
# 根据词汇表将句子转换为词袋表示
bow_vectors = []
for sentence in corpus_tokenized:
    sentence_vector = [0] * len(word_dict)
    for word in sentence:
        sentence_vector[word_dict[word]] += 1
    bow_vectors.append(sentence_vector)
bow_vectors

结果:

python 复制代码
[[1, 2, 1, 1, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0],
 [0, 0, 0, 0, 2, 1, 1, 1, 1, 1, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0],
 [0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 1, 1, 1, 1, 1, 1, 0, 0, 0, 0, 0, 0],
 [1, 0, 0, 1, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 1, 1, 0, 0],
 [0, 0, 0, 0, 1, 0, 0, 0, 1, 1, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 1]]

第5步 计算余弦相似度

余弦相似度(Cosine Similarity),可以衡量两个文本向量之间的相似性。其值在(-1,1)之间波动,1为最相似。

余弦相似度关注向量之间的角度,而非距离。而角度,能够更好地反映文本向量在概念空间中的相对方向和相似性。

python 复制代码
# 计算余弦相似度
import numpy as np

def cosine_similarity(vec1, vec2):
    dot_product = np.dot(vec1, vec2)
    norm_a = np.linalg.norm(vec1)
    norm_b = np.linalg.norm(vec2)

    return dot_product / (norm_a * norm_b)

similarity_matrix = np.zeros((len(corpus), len(corpus)))
for i in range(len(corpus)):
    for j in range(len(corpus)):
        similarity_matrix[i][j] = cosine_similarity(bow_vectors[i], bow_vectors[j])

similarity_matrix

结果:

python 复制代码
array([[1.        , 0.2236068 , 0.        , 0.40089186, 0.14433757],
       [0.2236068 , 1.        , 0.23904572, 0.23904572, 0.64549722],
       [0.        , 0.23904572, 1.        , 0.        , 0.15430335],
       [0.40089186, 0.23904572, 0.        , 1.        , 0.15430335],
       [0.14433757, 0.64549722, 0.15430335, 0.15430335, 1.        ]])

词袋模型的局限性

词袋模型逻辑清晰,实现简单,但是存在着一个致命的缺陷,那就是忽略了文本中的上下文信息。词袋模型无法捕捉单词之间的语义关系,因为单词在向量空间中的相对位置没有意义。


2024.09.07

相关推荐
清流君13 分钟前
【MySQL】数据库 Navicat 可视化工具与 MySQL 命令行基本操作
数据库·人工智能·笔记·mysql·ue5·数字孪生
Blossom.11820 分钟前
人工智能在智能家居中的应用与发展
人工智能·深度学习·机器学习·智能家居·vr·虚拟现实·多模态融合
biter008822 分钟前
ubuntu(28):ubuntu系统多版本conda和多版本cuda共存
linux·人工智能·ubuntu·conda
内网渗透22 分钟前
Python 虚拟环境管理:venv 与 conda 的选择与配置
开发语言·python·conda·虚拟环境·venv
薄荷很无奈31 分钟前
CuML + Cudf (RAPIDS) 加速python数据分析脚本
python·机器学习·数据分析·gpu算力
yivifu36 分钟前
pyqt中以鼠标所在位置为锚点缩放图片
python·pyqt·以鼠标为锚点缩放图片
电鱼智能的电小鱼42 分钟前
基于 EFISH-SBC-RK3588 的无人机通信云端数据处理模块方案‌
linux·网络·人工智能·嵌入式硬件·无人机·边缘计算
HyperAI超神经1 小时前
12个HPC教程汇总!从入门到实战,覆盖分子模拟/材料计算/生物信息分析等多个领域
图像处理·人工智能·深度学习·生物信息·分子模拟·材料计算·vasp
正在走向自律1 小时前
AI数字人:繁荣背后的伦理困境与法律迷局(8/10)
人工智能·python·opencv·语音识别·ai数字人·ai伦理与法律