【自然语言处理】P3 spaCy 与 NLTK(分词、词形还原与词干提取)以及 Porter 和 Snowball

目录

在自然语言处理(NLP)中,文本分词是将文本拆分为单词或词组的过程,这是理解文本含义和结构的基础。Python中两个流行库------spaCy和NLTK(Natural Language Toolkit),都提供了分词功能。下面将详细介绍如何使用这两个库进行文本分词等操作。

准备工作

spaCy

如果没有安装 spaCy 库,请安装:

bash 复制代码
# 安装spaCy库
pip install spacy

安装好 spaCy 库后,下载语言模型:

bash 复制代码
# 安装语言模型数据包(案例为下载英文包)
python -m spacy download en_core_web_sm

常用的语言模型还包含:中文模型(zh_core_web_sm)

更多语言模型请见:https://spacy.io/models

完成库的安装以及英文包的下载。


NLTK

首先安装 NLTK 库:

bash 复制代码
# 安装 NTLK 库
pip install nltk

下载语言模型:

python 复制代码
import nltk

nltk.download('stopwords')
nltk.download('averaged_perceptron_tagger')
nltk.download('punkt')

完成 NLTK 库的安装以及包的下载。


文本分词

spaCy

首先展示使用库 spaCy 进行分词:

python 复制代码
import spacy

# 加载英文语料库
nlp = spacy.load('en_core_web_sm')
text = "Natural Language Processing is a subfield of linguistics, computer science and artificial intelligence"
# 进行分词操作
doc = nlp(text)

result = []
for token in doc:
    result.append(token)

print(result)

NLTK

展示使用库 NLTK 进行分词:

python 复制代码
from nltk.tokenize import word_tokenize

text = "Natural Language Processing is a subfield of linguistics, computer science and artificial intelligence"
# 进行分词操作
tokens = word_tokenize(text)

result = []
for token in tokens:
    result.append(token)

print(result)

词形还原

词形还原是一项重要的文本预处理技术,旨在去除词形变化,返回单词的基本形式。这有助于统一词汇在不同语境中的表现形式,使得后续的语言分析更加准确。同样,我们将尝试使用 spaCy 以及 NLTK 库实现词形还原操作。

spaCy

首先展示通过 spaCy 的 doc[0].lemma_ 进行词形还原:

python 复制代码
import spacy

nlp = spacy.load('en_core_web_sm')

# 获取词形还原结果
def get_lemmatization(word_list):
    lemmatized_list = []
    for word in word_list:
        doc = nlp(word)
        lemmatized_word = doc[0].lemma_
        lemmatized_list.append(lemmatized_word)
    return lemmatized_list


if __name__ == '__main__':
    test_word_list = ["men", "computers", "ate", "running", "fancier"]
    result_word_list = get_lemmatization(test_word_list)
    print(result_word_list)

NLTK

然后展示通过 NLTK 库的 WordNetLemmatizer 函数进行词形还原:

python 复制代码
import nltk
from nltk.stem import WordNetLemmatizer

# nltk.download("wordnet")
# nltk.download("averaged_perceptron_tagger")

lemmatizer = WordNetLemmatizer()

test_word_list = ["men", "computers", "ate", "running", "fancier"]
result = [lemmatizer.lemmatize(word) for word in test_word_list]

print(result)

对比使用 spaCy 的分词结果以及使用 NLTK 词形还原结果为:

python 复制代码
# spaCy:
['man', 'computer', 'eat', 'run', 'fancy']
# NLTK:
['men', 'computer', 'ate', 'running', 'fancier']

对比来看,明显 spaCy 的词形还原效果更好一些;

当然,除了 spaCy 以及 NLTK 可以进行词形还原外,还有另外一些方法,比如 Porter 和 Snowball stemmers 的词干提取法,请见下个部分。


词干提取

词干提取是一种简单形式的词形还原。它涉及使用手工制作的规则来剥去单词的词尾,将其简化成一种叫做词干的常见形式。

Porter

Porter Stemmer 是一个简单的词干提取算法,它通过一系列规则来减少单词到其词干形式。这个算法包括以下几个步骤:

  1. 删除单词末尾的辅音字母序列,直到剩下至少两个字符。
  2. 如果单词以元音字母结尾,删除这个元音字母。
  3. 如果单词长度大于2,且以元音字母开头,则将第一个辅音字母移到词干的开头。

Porter stemmer 示例代码如下:

python 复制代码
from nltk.stem import PorterStemmer

# 创建 PorterStemmer 实例
stemmer = PorterStemmer()

test_word_list = ["running", "jumped", "eating", "playing"]
stemmed_words = [stemmer.stem(word) for word in test_word_list]

print(stemmed_words)

Snowball stemmers

Snowball Stemmer 是一个更复杂的词干提取算法,它是 Porter Stemmer 的改进版本,支持多种语言。Snowball Stemmer 采用了 Porter Stemmer 的基本思想,并添加了更多的规则和改进,以提高提取的准确性。

Snowball stemmers 示例代码如下:

python 复制代码
from nltk.stem import SnowballStemmer

# 选择语言,创建实例
stemmer = SnowballStemmer("english")

test_word_list = ["running", "jumped", "eating", "playing"]
stemmed_words = [stemmer.stem(word) for word in test_word_list]

print(stemmed_words)

在选择词干提取或词形还原的方法时,需要根据具体需求来决定。词干提取通常用于简化单词,而词形还原则是更加注重保持单词的意义。

  • 建议如果主要目标是简化单词以减少词汇量或提高文本分析的效率,词干提取更加适合;
  • 而如果主要目标是更精确的词义分析,那么词形还原可能是更好的选择。

发布:2024/2/2

版本:第一版

如有任何疑问,请联系我,谢谢!

相关推荐
刘什么洋啊Zz1 小时前
MacOS下使用Ollama本地构建DeepSeek并使用本地Dify构建AI应用
人工智能·macos·ai·ollama·deepseek
奔跑草-2 小时前
【拥抱AI】GPT Researcher 源码试跑成功的心得与总结
人工智能·gpt·ai搜索·deep research·深度检索
禁默3 小时前
【第四届网络安全、人工智能与数字经济国际学术会议(CSAIDE 2025】网络安全,人工智能,数字经济的研究
人工智能·安全·web安全·数字经济·学术论文
AnnyYoung4 小时前
华为云deepseek大模型平台:deepseek满血版
人工智能·ai·华为云
INDEMIND5 小时前
INDEMIND:AI视觉赋能服务机器人,“零”碰撞避障技术实现全天候安全
人工智能·视觉导航·服务机器人·商用机器人
慕容木木5 小时前
【全网最全教程】使用最强DeepSeekR1+联网的火山引擎,没有生成长度限制,DeepSeek本体的替代品,可本地部署+知识库,注册即可有750w的token使用
人工智能·火山引擎·deepseek·deepseek r1
南 阳5 小时前
百度搜索全面接入DeepSeek-R1满血版:AI与搜索的全新融合
人工智能·chatgpt
企鹅侠客6 小时前
开源免费文档翻译工具 可支持pdf、word、excel、ppt
人工智能·pdf·word·excel·自动翻译
冰淇淋百宝箱6 小时前
AI 安全时代:SDL与大模型结合的“王炸组合”——技术落地与实战指南
人工智能·安全
Elastic 中国社区官方博客7 小时前
Elasticsearch Open Inference API 增加了对 Jina AI 嵌入和 Rerank 模型的支持
大数据·人工智能·elasticsearch·搜索引擎·ai·全文检索·jina