nltk

guts3505 个月前
python·搜索引擎·自然语言处理·jieba·nltk
【python】swjtu西南交大互联网搜索引擎 项目一 报告:搜索引擎文本预处理通过下载引擎(Web Crawler/Spider)自动下载至少500个英文文档/网页,以及500个中文文档/网页,越多越好,并保留原始的文档/网页备份(如:News_1_Org.txt)
脚踏实地的大梦想家8 个月前
人工智能·自然语言处理·nltk·spacy
【自然语言处理】P3 spaCy 与 NLTK(分词、词形还原与词干提取)以及 Porter 和 Snowball在自然语言处理(NLP)中,文本分词是将文本拆分为单词或词组的过程,这是理解文本含义和结构的基础。Python中两个流行库——spaCy和NLTK(Natural Language Toolkit),都提供了分词功能。下面将详细介绍如何使用这两个库进行文本分词等操作。
爱看书的小沐9 个月前
python·自然语言处理·tf-idf·分词·sklearn·jieba·nltk
【小沐学NLP】Python实现TF-IDF算法(nltk、sklearn、jieba)TF-IDF(term frequency–inverse document frequency)是一种用于信息检索与数据挖掘的常用加权技术。TF是词频(Term Frequency),IDF是逆文本频率指数(Inverse Document Frequency)。
爱看书的小沐9 个月前
python·自然语言处理·kmeans·sklearn·聚类算法·nltk·k-means
【小沐学NLP】Python实现K-Means聚类算法(nltk、sklearn)聚类是一种无监督学习任务,该算法基于数据的内部结构寻找观察样本的自然族群(即集群)。使用案例包括细分客户、新闻聚类、文章推荐等。 因为聚类是一种无监督学习(即数据没有标注),并且通常使用数据可视化评价结果。如果存在「正确的回答」(即在训练集中存在预标注的集群),那么分类算法可能更加合适。
爱看书的小沐1 年前
人工智能·python·自然语言处理·nlp·分词·数据清洗·nltk
【小沐学NLP】Python使用NLTK库的入门教程NLTK - 自然语言工具包 - 是一套开源Python。 支持自然研究和开发的模块、数据集和教程 语言处理。NLTK 需要 Python 版本 3.7、3.8、3.9、3.10 或 3.11。