Python 数据分析10

2.3.3其他

除了前面所介绍的常用语数据挖掘建模的库之外,还有许多库也运用于数据挖掘建模,如jieba、SciPy、OpenCV、Pillow等。

1.jieba

jieba是一个被广泛使用的Python第三方中文分词库。jieba使用简单,并且支持Python、R、C++等多种编程语言的实现,对新手而言是一个较好的的入门粉刺工具。在GitHub社区,jieba长期有着较高的讨论度,社区中也有不少与jieba相关的实例。

相比其他分词工具,jieba不仅提供了分词工具,还提供了粉刺以外的其他功能,如磁性标注、添加自定义词典、关键词提取等。

jieba库可提供精确模式、全模式和搜索引擎3种分词模式。

a.精确模式采用精确的方式将于切分,适用于文本分析。

b.全模式可以快速地扫描语句中所有可以成词的部分,但无法解决歧义问题。

c.搜索引擎模式在精确模式的基础上再切分长词,适用于搜索引擎的的分词。

jieba磁性标注是基于规则与统计相结合的磁性标注方法。jieba词性标注与其分词的过程类似,即利用词典分配与隐马尔可夫模型共同合作实现。而且,通过jieba库进行词性标注,具有效率高、处理能力强等特点。

相关推荐
THMAIL14 分钟前
机器学习从入门到精通 - 循环神经网络(RNN)与LSTM:时序数据预测圣经
人工智能·python·rnn·算法·机器学习·逻辑回归·lstm
Source.Liu1 小时前
【Python自动化】 21.1 Pandas 读取 Excel 文件的完整指南
python·自动化·pandas
Hello Mr.Z1 小时前
使用pytorch创建/训练/推理OCR模型
人工智能·pytorch·python
MediaTea1 小时前
Python 内置函数:pow()
开发语言·python
AndrewHZ1 小时前
【图像处理基石】图像预处理方面有哪些经典的算法?
图像处理·python·opencv·算法·计算机视觉·cv·图像预处理
winfredzhang2 小时前
用Python打造逼真的照片桌面:从拖拽到交互的完整实现
python·拖拽·照片·桌面
2401_897930065 小时前
tensorflow常用使用场景
人工智能·python·tensorflow
酷飞飞7 小时前
错误是ModuleNotFoundError: No module named ‘pip‘解决“找不到 pip”
人工智能·python·pip
点云SLAM8 小时前
PyTorch 中.backward() 详解使用
人工智能·pytorch·python·深度学习·算法·机器学习·机器人
B1118521Y468 小时前
flask的使用
后端·python·flask