文本预处理——文本处理的基本方法

目录

什么是分词

jieba分词特性

精确模式分词

python 复制代码
import jieba
content='工信处女干事每月经过下属科室都要亲口交代24口交换机等技术性器件的安装工作'
print(jieba.lcut(content,cut_all=False))

全模式分词

python 复制代码
import jieba
content='工信处女干事每月经过下属科室都要亲口交代24口交换机等技术性器件的安装工作'
print(jieba.lcut(content,cut_all=True))

搜索引擎模式分词

python 复制代码
import jieba
content='工信处女干事每月经过下属科室都要亲口交代24口交换机等技术性器件的安装工作'
print(jieba.lcut_for_search(content))

使用用户自定义词典



命名实体识别

词性标注


python 复制代码
import jieba.posseg as pseg
pseg.lcut('我爱北京天安门')
相关推荐
峰兄19830511 小时前
拆解国际大厂 Buck 型 DCDC 电路:LTC3542 的逆向探索之旅
nlp
渣渣苏1 天前
NLP从入门到精通
ai·大模型·nlp·lstm·transform
jerryinwuhan4 天前
情节节点对齐(Narrative Anchor Alignment)——叙事学方法
nlp
鹿角片ljp4 天前
基于 BiLSTM 的中文文本相似度计算项目实现
python·nlp·lstm
熊猫钓鱼>_>6 天前
PyTorch深度学习框架入门浅析
人工智能·pytorch·深度学习·cnn·nlp·动态规划·微分
地中海~6 天前
LARGE LANGUAGE MODELS ARE NOT ROBUST ICLR2024
人工智能·笔记·nlp
AI人工智能+8 天前
文档抽取技术通过融合CV、NLP与深度学习,实现了复杂文献的结构化转化
nlp·ocr·文档抽取
晓山清9 天前
Meeting Summarizer Using Natural Language Processing论文理解
人工智能·python·nlp·摘要生成
uncle_ll10 天前
音画同步革命:IndexTTS2深度解析——B站开源的情感化+时长可控TTS新标杆
nlp·tts·文本转语音·声音克隆
WenGyyyL11 天前
基于昇腾平台的Qwen大模型推理部署实战:从模型转换到推理(含代码)
人工智能·python·语言模型·nlp·昇腾