【NLP】 8. 处理常见词（Stopwords）的不同策略

处理常见词（Stopwords）的不同策略

在自然语言处理 (NLP) 和信息检索 (IR) 任务中，常见词（Stopwords） 是指在文本中频繁出现但通常对主要任务贡献较小的词，例如 "the"、"is"、"in"、"and" 等。这些词的处理方式取决于具体任务的需求。

目标：在搜索引擎、文档检索等任务中，我们希望高效匹配重要的关键词，而不是被无关紧要的词干扰。

策略：

适用场景：

在 NLP 任务中，是否去除常见词取决于具体应用：

原因：

适用场景：

示例：

作者风格分析 (Authorship Attribution)
- 例如，某位作者的写作风格可能倾向于使用特定的停用词（如 "thus"、"however"），这些词在区分不同作者时非常重要。
法律文本处理
- 在法律文件中，像 "shall"、"must" 这样的词可能对法律约束性表述至关重要。
语法分析（Parsing）和命名实体识别 (NER)
- 句法关系和实体识别通常依赖于停用词，例如 "in 2023" 中的 "in" 可能是时间表达的重要部分。

现代深度学习模型（如 Transformer、BERT）通常不会显式移除停用词，而是通过注意力机制 (Attention Mechanism) 自动学习哪些词更重要。因此，在使用这些模型时，手动去除停用词的作用较小。

但在计算资源有限的情况下（如 TF-IDF 词袋模型、朴素贝叶斯），适当去除停用词仍能提高计算效率。