【漫话机器学习系列】009.词袋模型(Bag of Words)

词袋模型(Bag of Words, 简称 BoW)

词袋模型是一种常见的文本表示方法,主要用于自然语言处理(NLP)和信息检索领域。它将文本数据转换为特征向量,忽略语序,仅考虑词的出现与否或出现频率。


1. 基本思想

  • 把文本看作一个词的集合(袋子),忽略语序和句法结构。
  • 对文本中的所有独立词汇建立一个词汇表(Vocabulary)。
  • 每个文本用一个固定大小的向量表示,向量的每一维对应词汇表中的一个词。
  • 向量值可以是:
    • 词频(Term Frequency, TF)。
    • 二进制值(出现记为 1,不出现记为 0)。
    • 权重(如 TF-IDF)。

2. 特征表示步骤

(1) 词汇提取
  • 文本预处理
    • 分词:将句子切分成单独的词。
    • 去停用词:去掉"的"、"是"、"了"等无意义的高频词。
    • 小写化:统一词的大小写。
    • 去除标点符号。
  • 建立词汇表
    • 根据所有文本中出现的词,生成一个词汇表。
(2) 文本向量化
  • 对于每个文本:
    • 按词汇表的顺序统计每个词的出现次数。
    • 将统计结果填入对应的特征向量位置。

3. 示例

示例文本:
复制代码
文档1: 我喜欢机器学习。
文档2: 我喜欢深度学习和机器学习。
(1) 建立词汇表

所有词汇(去重后):['我', '喜欢', '机器', '学习', '深度', '和']

(2) 向量化
  • 文档1的向量表示:[1, 1, 1, 1, 0, 0]
  • 文档2的向量表示:[1, 1, 1, 1, 1, 1]

4. Python 示例

(1) 使用 Scikit-learn
python 复制代码
from sklearn.feature_extraction.text import CountVectorizer

# 示例数据
documents = [
    "我喜欢机器学习",
    "我喜欢深度学习和机器学习"
]

# 创建词袋模型
vectorizer = CountVectorizer()
X = vectorizer.fit_transform(documents)

# 输出特征词汇表
print("词汇表:", vectorizer.get_feature_names_out())

# 输出向量化表示
print("向量化表示:\n", X.toarray())

输出结果

Matlab 复制代码
词汇表: ['和' '喜欢' '学习' '机器' '深度' '我']
向量化表示:
 [[0 1 1 1 0 1]
  [1 1 1 1 1 1]]
(2) 使用 TF-IDF 权重
python 复制代码
from sklearn.feature_extraction.text import TfidfVectorizer

# 示例数据
documents = [
    "我喜欢机器学习",
    "我喜欢深度学习和机器学习"
]

# 创建 TF-IDF 模型
vectorizer = TfidfVectorizer()
X = vectorizer.fit_transform(documents)

# 输出 TF-IDF 特征
print("TF-IDF 向量化表示:\n", X.toarray())

输出结果

python 复制代码
TF-IDF 向量化表示:
 [[1. 0.]
 [0. 1.]]

5. 优点

  • 简单易用:实现和计算简单。
  • 通用性强:适用于多种文本分析任务。
  • 高效:适合小规模文本数据。

6. 缺点

  • 忽略词序:丢失了上下文信息,无法捕捉词间的语义关系。
  • 维度较高:如果词汇表很大,特征向量的维度会非常高。
  • 稀疏性问题:大多数特征值为零,导致稀疏矩阵,影响计算效率。
  • 不考虑词重要性:词频高的常用词(如"的"、"是")可能掩盖关键词的作用。

7. 改进方法

  • TF-IDF:引入词的重要性,降低高频词的权重。
  • Word2Vec / GloVe:通过分布式表示,将词转化为低维稠密向量,保留语义关系。
  • N-grams:考虑词组(如"机器学习")而非单个词。

8. 应用场景

  • 文本分类:如垃圾邮件检测、情感分析。
  • 信息检索:如搜索引擎中的文档相似性计算。
  • 文档聚类:将相似的文本分为一类。

词袋模型是文本表示的重要基础,它虽然简单但功能强大,在许多任务中依然有效。

相关推荐
nnerddboy12 分钟前
解决传统特征波段选择的不可解释性:2. SHAP和LIME
python·机器学习
阿里云大数据AI技术14 分钟前
【NeurIPS2025】阿里云PAI团队动态数据调度方案Skrull 入选
人工智能
硬汉嵌入式14 分钟前
VisualGDB 6.1 Beta5版本,正式引入全新的高速AI编辑引擎,专为C/C++项目量身打造
人工智能·visualgdb
乾元26 分钟前
AI 驱动的入侵检测与异常会话判别:从规则到行为分析前言:从“捕获敌人”到“守卫秩序”
运维·网络·人工智能·网络协议·安全
泰迪智能科技011 小时前
分享|深化产教融合丨图书联合编写招募直播
人工智能
沐雪架构师1 小时前
OpenAgents:让AI智能体Agent像人类一样联网协作
人工智能
我要充满正能量1 小时前
拥抱AI Coding,让我更自信能胜任我的工作
人工智能·ai编程·claude
安达发公司1 小时前
安达发|效率革命:APS自动排程,为“金属丛林”安装精准导航
大数据·运维·人工智能·aps高级排程·aps排程软件·安达发aps·aps自动排程
神州问学1 小时前
AI 智能体攻陷软件工程:从 SWE-Agent 到 SWE-Swiss,全景解析 AI4SE 最新战局
人工智能
森诺Alyson1 小时前
前沿技术借鉴研讨-2025.12.23(荟萃分析/信号提取/轻量级模型)
论文阅读·人工智能·经验分享·论文笔记·论文讨论