文本预处理——文本处理的基本方法

目录

什么是分词

jieba分词特性

精确模式分词

python 复制代码
import jieba
content='工信处女干事每月经过下属科室都要亲口交代24口交换机等技术性器件的安装工作'
print(jieba.lcut(content,cut_all=False))

全模式分词

python 复制代码
import jieba
content='工信处女干事每月经过下属科室都要亲口交代24口交换机等技术性器件的安装工作'
print(jieba.lcut(content,cut_all=True))

搜索引擎模式分词

python 复制代码
import jieba
content='工信处女干事每月经过下属科室都要亲口交代24口交换机等技术性器件的安装工作'
print(jieba.lcut_for_search(content))

使用用户自定义词典



命名实体识别

词性标注


python 复制代码
import jieba.posseg as pseg
pseg.lcut('我爱北京天安门')
相关推荐
weixin_435208161 天前
通过 Markdown 改进 RAG 文档处理
人工智能·python·算法·自然语言处理·面试·nlp·aigc
反方向的钟儿6 天前
人工智能入门(2)
大数据·人工智能·学习·自然语言处理·nlp·vr
冲上云霄的Jayden7 天前
PaddleNLP UIE 通过OCR识别银行回执信息
nlp·ocr·paddle·paddlenlp·信息提取·uie·银行回执
百锦再8 天前
DeepSeek与GPT的全方位对比及其为编程工作带来的巨大变革
人工智能·python·gpt·nlp·deepseek
lihuayong9 天前
自然语言处理NLP-文本预处理
人工智能·自然语言处理·nlp·分词·文本预处理
一支王同学13 天前
使用LLama-Factory的简易教程(Llama3微调案例+详细步骤)
nlp·大语言模型·llama
代码骑士14 天前
LiteratureReading:[2023] GPT-4: Technical Report
nlp
闲人编程16 天前
强化学习:DQN玩转CartPole游戏
人工智能·深度学习·nlp
勤奋的小笼包16 天前
【论文阅读】CARES:医学视觉语言模型可信度的综合基准
论文阅读·人工智能·学习·语言模型·自然语言处理·chatgpt·nlp