文本预处理——文本处理的基本方法

目录

什么是分词

jieba分词特性

精确模式分词

python 复制代码
import jieba
content='工信处女干事每月经过下属科室都要亲口交代24口交换机等技术性器件的安装工作'
print(jieba.lcut(content,cut_all=False))

全模式分词

python 复制代码
import jieba
content='工信处女干事每月经过下属科室都要亲口交代24口交换机等技术性器件的安装工作'
print(jieba.lcut(content,cut_all=True))

搜索引擎模式分词

python 复制代码
import jieba
content='工信处女干事每月经过下属科室都要亲口交代24口交换机等技术性器件的安装工作'
print(jieba.lcut_for_search(content))

使用用户自定义词典



命名实体识别

词性标注


python 复制代码
import jieba.posseg as pseg
pseg.lcut('我爱北京天安门')
相关推荐
小敬爱吃饭4 天前
知识图谱实战第一章:知识图谱全景解析其定义、技术演进与十大应用场景
人工智能·python·目标检测·自然语言处理·flask·nlp·知识图谱
Hello未来5 天前
llamafactory 的使用和安装
python·深度学习·语言模型·自然语言处理·nlp
user_admin_god11 天前
Opencode常见问题与优化排查
java·人工智能·自然语言处理·nlp·idea
深圳市快瞳科技有限公司12 天前
医保OCR与医保审核系统融合:智能校验规则设计与实现
nlp·ocr
王_teacher13 天前
RNN 循环神经网络 计算过程(通俗+公式版+运行实例)
人工智能·rnn·nlp
Luca_kill15 天前
实战指南:用 Python + NLP 搭建一套轻量级 AI 舆情监控系统
人工智能·python·机器学习·nlp·舆情监控
墨心@17 天前
Byte-Pair Encoding (BPE) Tokenizer
人工智能·自然语言处理·nlp·datawhale·cs336·组队学习
Shen Planck18 天前
BAAI/bge-m3部署磁盘不足?模型缓存清理操作指南
nlp·大语言模型·baai·语义相似度
xcLeigh19 天前
AI标书底层技术全解析:NLP+大模型落地,喜鹊标书AI如何重构投标效率
人工智能·ai·自然语言处理·重构·大模型·nlp·标书