NLP(jieba库实现分词以及代码实现)

系列文章目录

第一章 规则和传统NLP之NLP概述
第二章 规则和传统NLP之NLP任务范式
第三章 规则和传统NLP之困难和挑战
第四章 NLP常见语料库
第五章NLP(正向,逆向,双向匹配法分词及代码实现)


jieba分词


一、 jieba分词

jieba做中文分词有三种模式:

1. 全模式

  • 切分方式:将句子中的所有可能词语都切分出来,包括一些较小的词和组合词。这意味着同一个句子可能会被切分成多个词语。
  • 适用场景:适合用于关键词提取或快速获取文本中的所有潜在词汇。这个模式适合初步分析文本,了解文本的主题。

2. 精确模式

  • 切分方式:将句子精确地切分成词语,尽量准确地还原出语义。这个模式会根据词典和语言规则,选择最可能的分词结果。
  • 适用场景:适合用于文本分析和语义理解,常用于处理需要分析句子意思的任务,如文本分类和情感分析。

3. 搜索引擎模式

  • 切分方式:在精确模式的基础上,对词语进行更细粒度的切分,特别是长词和短词的组合,使得搜索时能更好地匹配用户输入。
  • 适用场景:适合用于搜索引擎的词语匹配,尤其是在构建搜索引擎时,可以提高用户输入查询时的匹配准确性。

总的来说,选择哪种模式取决于具体的应用需求:如果需要准确理解文本,使用精确模式;如果需要获取所有可能词汇,使用全模式;如果需要优化搜索结果,使用搜索引擎模式。

代码实现和结果

python 复制代码
import jieba

text = '我来到北京清华大学'

# 全模式

seglist = jieba.cut(text,cut_all=True)
for word in seglist:
    print(word,end='/')
print()
#精确模式
seglist = jieba.cut(text,cut_all=False)
for word in seglist:
    print(word,end='/')
print()
# 检索模式
seglist = jieba.cut_for_search(text)
for word in seglist:
    print(word,end='/')
print()

结果

相关推荐
混沌福王4 分钟前
Electron三端统一架构:运行时Adapter、IPC能力边界与分层设计
人工智能·agent·ai编程
说了很好4 分钟前
马尔可夫扩散链+损失函数推导,手把手实现原生Diffusion
人工智能
聂二AI落地内参6 分钟前
合同抽取别停在 JSON:标准规则和交易日历才是硬仗
人工智能
冬哥聊AI9 分钟前
滴滴Agent岗二面:RAG 系统的 LLM 幻觉怎么治?从两类根源讲到四道防线
人工智能
lyshlc15 分钟前
# AI Agent的推迟判定协议:不确定性下的最优策略
人工智能
用户3299016750519 分钟前
用zod在运行时兜住AI返回的JSON
人工智能
George37519 分钟前
第一章:本体论是什么(以及它不是什么)
人工智能
贵慜_Derek20 分钟前
《从零实现 Agent 系统》连载 32|闭集 IE 与小模型:分类、意图与字段抽取
人工智能·架构·agent
IT_陈寒1 小时前
Java 并行流把我坑惨了,这6小时加班值了
前端·人工智能·后端
火山引擎开发者社区2 小时前
告别长期密码:火山引擎云数据库 MySQL IAM 鉴权全解析
人工智能