技术栈
nltk
guts350
6 个月前
python
·
搜索引擎
·
自然语言处理
·
jieba
·
nltk
【python】swjtu西南交大互联网搜索引擎 项目一 报告:搜索引擎文本预处理
通过下载引擎(Web Crawler/Spider)自动下载至少500个英文文档/网页,以及500个中文文档/网页,越多越好,并保留原始的文档/网页备份(如:News_1_Org.txt)
脚踏实地的大梦想家
9 个月前
人工智能
·
自然语言处理
·
nltk
·
spacy
【自然语言处理】P3 spaCy 与 NLTK(分词、词形还原与词干提取)以及 Porter 和 Snowball
在自然语言处理(NLP)中,文本分词是将文本拆分为单词或词组的过程,这是理解文本含义和结构的基础。Python中两个流行库——spaCy和NLTK(Natural Language Toolkit),都提供了分词功能。下面将详细介绍如何使用这两个库进行文本分词等操作。
爱看书的小沐
10 个月前
python
·
自然语言处理
·
tf-idf
·
分词
·
sklearn
·
jieba
·
nltk
【小沐学NLP】Python实现TF-IDF算法(nltk、sklearn、jieba)
TF-IDF(term frequency–inverse document frequency)是一种用于信息检索与数据挖掘的常用加权技术。TF是词频(Term Frequency),IDF是逆文本频率指数(Inverse Document Frequency)。
爱看书的小沐
10 个月前
python
·
自然语言处理
·
kmeans
·
sklearn
·
聚类算法
·
nltk
·
k-means
【小沐学NLP】Python实现K-Means聚类算法(nltk、sklearn)
聚类是一种无监督学习任务,该算法基于数据的内部结构寻找观察样本的自然族群(即集群)。使用案例包括细分客户、新闻聚类、文章推荐等。 因为聚类是一种无监督学习(即数据没有标注),并且通常使用数据可视化评价结果。如果存在「正确的回答」(即在训练集中存在预标注的集群),那么分类算法可能更加合适。
爱看书的小沐
1 年前
人工智能
·
python
·
自然语言处理
·
nlp
·
分词
·
数据清洗
·
nltk
【小沐学NLP】Python使用NLTK库的入门教程
NLTK - 自然语言工具包 - 是一套开源Python。 支持自然研究和开发的模块、数据集和教程 语言处理。NLTK 需要 Python 版本 3.7、3.8、3.9、3.10 或 3.11。