掌握NLTK:Python自然语言处理库中级教程

在之前的初级教程中,我们已经了解了NLTK(Natural Language Toolkit)的基本用法,如进行文本分词、词性标注和停用词移除等。在本篇中级教程中,我们将进一步探索NLTK的更多功能,包括词干提取、词形还原、n-gram模型以及词云的绘制。

一、词干提取

词干提取是一种将词语简化为其基本形式或词干的过程。例如,"running"、"runner"和"ran"的词干可能都是"run"。在NLTK中,我们可以使用Porter词干提取器进行词干提取:

python 复制代码
from nltk.stem import PorterStemmer
from nltk.tokenize import word_tokenize

ps = PorterStemmer()

words = ["run", "runner", "running", "ran"]
for w in words:
    print(ps.stem(w))

二、词形还原

与词干提取相似,词形还原也是简化词语的一种方式,但它保留的是词语的词形,而不仅仅是词干。在NLTK中,我们可以使用WordNet词形还原器进行词形还原:

python 复制代码
from nltk.stem import WordNetLemmatizer

lemmatizer = WordNetLemmatizer()

print(lemmatizer.lemmatize("running"))
print(lemmatizer.lemmatize("ran", pos='v'))

三、n-gram模型

n-gram是一种语言模型,用于预测下一个词的可能性。n-gram模型基于统计的方法,考虑前n-1个词来预测下一个词。在NLTK中,我们可以使用ngrams函数来生成n-gram:

python 复制代码
from nltk import ngrams
from nltk.tokenize import word_tokenize

sentence = "I love to play football"
n = 2
grams = ngrams(word_tokenize(sentence), n)
for gram in grams:
    print(gram)

四、绘制词云

词云是一种可视化技术,用于表示文本数据中词的频率。在NLTK中,虽然没有直接提供绘制词云的函数,但我们可以结合wordcloud库来创建词云:

python 复制代码
from nltk.corpus import stopwords
from nltk.tokenize import word_tokenize
from wordcloud import WordCloud
import matplotlib.pyplot as plt

text = "NLTK is a leading platform for building Python programs to work with human language data."
stop_words = set(stopwords.words('english'))

words = word_tokenize(text)
words = [word for word in words if word not in stop_words]

wordcloud = WordCloud().generate(' '.join(words))

plt.imshow(wordcloud)
plt.axis("off")
plt.show()

以上,我们介绍了NLTK库中的一些中级功能,包括词干提取、词形还原、n-gram模型和词云的绘制等。然而,NLTK还有更多高级的功能和特性,如情感分析、语义角色标注等,值得我们进一步探索和学习。

相关推荐
Niuguangshuo2 分钟前
深入浅出解析自然语言处理的核心——分词器
人工智能·自然语言处理
曲幽10 分钟前
FastAPI数据库实战:从SQLAlchemy原理到高效连接管理,告别性能瓶颈
python·sqlite·flask·fastapi·web·sqlalchemy·db
dagouaofei15 分钟前
2026 年工作计划 PPT 制作,AI 自动生成是否真的省时
python·powerpoint
袁袁袁袁满18 分钟前
Python使用uuid生成唯一密钥uid详细教程
开发语言·python·uuid·唯一密钥uid
佑白雪乐25 分钟前
<Python基础第2集>速通list+tuple+string+序列+set+dict容器
windows·python·list
音视频开发_AIZ26 分钟前
比OpenAI语音模型落地更快!基于RTC SDK搭建语音实时互动智能体教程
人工智能·语言模型·自然语言处理·实时互动·语音识别·实时音视频
极客先躯34 分钟前
基于 EasyUI 和 jQuery 封装的企业级日期时间选择器组件库,采用标准的 jQuery 插件开发规范,实现了高度模块化和可复用的 UI 组件
ui·jquery·日期选择器·时间选择器·easyui
qq_336313931 小时前
java基础-IO流(随机点名器)
java·开发语言·python
liu****1 小时前
深度学习简介
人工智能·python·深度学习·python基础