Python 数据分析10

2.3.3其他

除了前面所介绍的常用语数据挖掘建模的库之外,还有许多库也运用于数据挖掘建模,如jieba、SciPy、OpenCV、Pillow等。

1.jieba

jieba是一个被广泛使用的Python第三方中文分词库。jieba使用简单,并且支持Python、R、C++等多种编程语言的实现,对新手而言是一个较好的的入门粉刺工具。在GitHub社区,jieba长期有着较高的讨论度,社区中也有不少与jieba相关的实例。

相比其他分词工具,jieba不仅提供了分词工具,还提供了粉刺以外的其他功能,如磁性标注、添加自定义词典、关键词提取等。

jieba库可提供精确模式、全模式和搜索引擎3种分词模式。

a.精确模式采用精确的方式将于切分,适用于文本分析。

b.全模式可以快速地扫描语句中所有可以成词的部分,但无法解决歧义问题。

c.搜索引擎模式在精确模式的基础上再切分长词,适用于搜索引擎的的分词。

jieba磁性标注是基于规则与统计相结合的磁性标注方法。jieba词性标注与其分词的过程类似,即利用词典分配与隐马尔可夫模型共同合作实现。而且,通过jieba库进行词性标注,具有效率高、处理能力强等特点。

相关推荐
lxmyzzs2 分钟前
使用Python分析COCO数据集标注信息:一个简单脚本实现统计与可视化
python·深度学习·目标检测·计算机视觉
wertyuytrewm3 分钟前
自动化与脚本
jvm·数据库·python
qq_417695058 分钟前
Python深度学习入门:TensorFlow 2.0/Keras实战
jvm·数据库·python
problc9 分钟前
在 OpenClaw 里一句话记账:消费说出来,账单自动进乖猫记账 App
开发语言·python
紫丁香10 分钟前
Dify源码深度剖析3
后端·python·ai·flask·fastapi
@Ma10 分钟前
企业微信智能机器人 Python 插件获取回调和发送消息支持文字图片语音视频
python·机器人·企业微信
七夜zippoe11 分钟前
消息队列选型:Kafka vs RabbitMQ vs Redis 深度对比
redis·python·kafka·消息队列·rabbitmq
赵谨言11 分钟前
基于YOLOv5的海棠花花朵检测识别:文献综述与研究展望
大数据·开发语言·经验分享·python
-Excalibur-12 分钟前
IP数据包在计算机网络传输的全过程
java·网络·c++·笔记·python·网络协议·智能路由器
weixin1997010801617 分钟前
“迷你京东”全栈架构设计与实现
java·大数据·python·数据库架构