Python 数据分析10

2.3.3其他

除了前面所介绍的常用语数据挖掘建模的库之外,还有许多库也运用于数据挖掘建模,如jieba、SciPy、OpenCV、Pillow等。

1.jieba

jieba是一个被广泛使用的Python第三方中文分词库。jieba使用简单,并且支持Python、R、C++等多种编程语言的实现,对新手而言是一个较好的的入门粉刺工具。在GitHub社区,jieba长期有着较高的讨论度,社区中也有不少与jieba相关的实例。

相比其他分词工具,jieba不仅提供了分词工具,还提供了粉刺以外的其他功能,如磁性标注、添加自定义词典、关键词提取等。

jieba库可提供精确模式、全模式和搜索引擎3种分词模式。

a.精确模式采用精确的方式将于切分,适用于文本分析。

b.全模式可以快速地扫描语句中所有可以成词的部分,但无法解决歧义问题。

c.搜索引擎模式在精确模式的基础上再切分长词,适用于搜索引擎的的分词。

jieba磁性标注是基于规则与统计相结合的磁性标注方法。jieba词性标注与其分词的过程类似,即利用词典分配与隐马尔可夫模型共同合作实现。而且,通过jieba库进行词性标注,具有效率高、处理能力强等特点。

相关推荐
Q_Q511008285几秒前
python+django/flask+uniapp宠物中心信息管理系统app
spring boot·python·django·flask·uni-app·node.js·php
Nina_7171 分钟前
Day 49 训练
python
yizhimie373 分钟前
DAY 31 文件的规范拆分和写法
python
skywalk816314 分钟前
超强人工智能解决方案套件InfiniSynapse:精准的业务理解、对各种数据源进行全模态联合智能分析--部署安装@Ubuntu22.04 & @Docker
数据库·人工智能·python·docker·infini-synapse
亚林瓜子15 分钟前
AWS Lambda Python + AWS Secrets Manager + AWS Aurora Mysql
python·mysql·aws·lambda·aurora·vpc·secrets
船长@Quant29 分钟前
量化面试绿皮书:13. 贴错标签的袋子
python·量化绿皮书·量化面试·量化算法
Takina~38 分钟前
python打卡day53
python·深度学习·机器学习
睡觉z40 分钟前
初认Flask框架
后端·python·flask
果子⌂1 小时前
初识 Flask 框架
后端·python·flask
Blossom.1181 小时前
基于深度学习的智能图像分类系统:从零开始构建
开发语言·人工智能·python·深度学习·神经网络·机器学习·分类