Python 数据分析10

2.3.3其他

除了前面所介绍的常用语数据挖掘建模的库之外,还有许多库也运用于数据挖掘建模,如jieba、SciPy、OpenCV、Pillow等。

1.jieba

jieba是一个被广泛使用的Python第三方中文分词库。jieba使用简单,并且支持Python、R、C++等多种编程语言的实现,对新手而言是一个较好的的入门粉刺工具。在GitHub社区,jieba长期有着较高的讨论度,社区中也有不少与jieba相关的实例。

相比其他分词工具,jieba不仅提供了分词工具,还提供了粉刺以外的其他功能,如磁性标注、添加自定义词典、关键词提取等。

jieba库可提供精确模式、全模式和搜索引擎3种分词模式。

a.精确模式采用精确的方式将于切分,适用于文本分析。

b.全模式可以快速地扫描语句中所有可以成词的部分,但无法解决歧义问题。

c.搜索引擎模式在精确模式的基础上再切分长词,适用于搜索引擎的的分词。

jieba磁性标注是基于规则与统计相结合的磁性标注方法。jieba词性标注与其分词的过程类似,即利用词典分配与隐马尔可夫模型共同合作实现。而且,通过jieba库进行词性标注,具有效率高、处理能力强等特点。

相关推荐
小智RE0-走在路上2 分钟前
Python学习笔记(6)--列表,元组,字符串,序列切片
笔记·python·学习
feeday9 分钟前
Python 删除重复图片 优化版
开发语言·python
ss27315 分钟前
Java线程池全解:工作原理、参数调优
java·linux·python
于是我说17 分钟前
一份Python 面试常见问题清单 覆盖从初级到高级
开发语言·python·面试
BoBoZz1917 分钟前
RotationAroundLine 模型的旋转
python·vtk·图形渲染·图形处理
Kurbaneli20 分钟前
Python金融数据分析革命:Mootdx让通达信数据获取变得如此简单
python
吧啦蹦吧30 分钟前
`org.springframework.util.ClassUtils#forName
开发语言·python
倔强的小石头_32 分钟前
Python 从入门到实战(十):Pandas 数据处理(高效搞定表格数据的 “瑞士军刀”)
人工智能·python·pandas
Together_CZ42 分钟前
DarkIR: Robust Low-Light Image Restoration——鲁棒的低光照图像复原
python·image·robust·darkir·鲁棒的低光照图像复原·low-light·restoration
拾贰_C1 小时前
【python | pytorch | scipy】scipy scikit-learn库相互依赖?
pytorch·python·scipy