文本预处理——文本处理的基本方法

目录

什么是分词

jieba分词特性

精确模式分词

python 复制代码
import jieba
content='工信处女干事每月经过下属科室都要亲口交代24口交换机等技术性器件的安装工作'
print(jieba.lcut(content,cut_all=False))

全模式分词

python 复制代码
import jieba
content='工信处女干事每月经过下属科室都要亲口交代24口交换机等技术性器件的安装工作'
print(jieba.lcut(content,cut_all=True))

搜索引擎模式分词

python 复制代码
import jieba
content='工信处女干事每月经过下属科室都要亲口交代24口交换机等技术性器件的安装工作'
print(jieba.lcut_for_search(content))

使用用户自定义词典



命名实体识别

词性标注


python 复制代码
import jieba.posseg as pseg
pseg.lcut('我爱北京天安门')
相关推荐
java1234_小锋4 小时前
[免费]【NLP舆情分析】基于python微博舆情分析可视化系统(flask+pandas+echarts)【论文+源码+SQL脚本】
python·flask·nlp·舆情分析·微博舆情分析
Easy数模8 小时前
使用llm进行高级主题建模:通过利用 BERTopic 的表示模型和生成式 AI 深入探讨主题建模
人工智能·llm·nlp
在未来等你2 天前
RAG实战指南 Day 24:上下文构建与提示工程
nlp·rag·retrieval-augmented generation·prompt engineering·context management
AI大模型4 天前
基于 RAG 和 Claude 的智能文档聊天系统实战指南
程序员·llm·nlp
Easy数模4 天前
ModernBERT如何突破BERT局限?情感分析全流程解析
人工智能·深度学习·nlp·bert
Himon6 天前
LLM参数有效性学习综述
人工智能·算法·nlp
合作小小程序员小小店8 天前
web网页开发,在线%微博,舆情%系统,基于python,pycharm,django,nlp,内容推荐,余弦,线性,TF-IDF,mysql
自然语言处理·django·nlp·html5·tf-idf
胡耀超15 天前
Umi-OCR 的 Docker安装(win制作镜像,Linux(Ubuntu Server 22.04)离线部署)
linux·深度学习·ubuntu·docker·容器·nlp·ocr
用户0956691600915 天前
使用modelscope在本地部署文本情感分析模型并对外提供api接口
nlp