Python 数据分析10

2.3.3其他

除了前面所介绍的常用语数据挖掘建模的库之外,还有许多库也运用于数据挖掘建模,如jieba、SciPy、OpenCV、Pillow等。

1.jieba

jieba是一个被广泛使用的Python第三方中文分词库。jieba使用简单,并且支持Python、R、C++等多种编程语言的实现,对新手而言是一个较好的的入门粉刺工具。在GitHub社区,jieba长期有着较高的讨论度,社区中也有不少与jieba相关的实例。

相比其他分词工具,jieba不仅提供了分词工具,还提供了粉刺以外的其他功能,如磁性标注、添加自定义词典、关键词提取等。

jieba库可提供精确模式、全模式和搜索引擎3种分词模式。

a.精确模式采用精确的方式将于切分,适用于文本分析。

b.全模式可以快速地扫描语句中所有可以成词的部分,但无法解决歧义问题。

c.搜索引擎模式在精确模式的基础上再切分长词,适用于搜索引擎的的分词。

jieba磁性标注是基于规则与统计相结合的磁性标注方法。jieba词性标注与其分词的过程类似,即利用词典分配与隐马尔可夫模型共同合作实现。而且,通过jieba库进行词性标注,具有效率高、处理能力强等特点。

相关推荐
徐凤年lll1 小时前
python 初学2
开发语言·python
坚持就完事了1 小时前
解析数据练习(小项目)
python
周周记笔记2 小时前
Pycharm详解:高效Python开发的首选IDE
ide·python·pycharm
香辣西红柿炒蛋2 小时前
Python企业编码规范
python
Anson Jiang3 小时前
PyTorch轻松实现CV模型:零基础到实战
pytorch·python·django·flask·python开发
风雨同舟的代码笔记3 小时前
5.Python函数与模块化工程实战:构建高复用代码体系
python
我的xiaodoujiao3 小时前
使用 Python 语言 从 0 到 1 搭建完整 Web UI自动化测试学习系列 22--数据驱动--参数化处理 Json 文件
python·学习·测试工具·pytest
别慌,让我先缓缓4 小时前
PyModbus 从入门到精通教程
python
景彡先生4 小时前
Python Flask详解:从入门到实战,轻量级Web框架的魅力
前端·python·flask
JJJJ_iii4 小时前
【机器学习12】无监督学习:K-均值聚类与异常检测
人工智能·笔记·python·学习·机器学习·均值算法·聚类