文本预处理——文本处理的基本方法

目录

什么是分词

jieba分词特性

精确模式分词

python 复制代码
import jieba
content='工信处女干事每月经过下属科室都要亲口交代24口交换机等技术性器件的安装工作'
print(jieba.lcut(content,cut_all=False))

全模式分词

python 复制代码
import jieba
content='工信处女干事每月经过下属科室都要亲口交代24口交换机等技术性器件的安装工作'
print(jieba.lcut(content,cut_all=True))

搜索引擎模式分词

python 复制代码
import jieba
content='工信处女干事每月经过下属科室都要亲口交代24口交换机等技术性器件的安装工作'
print(jieba.lcut_for_search(content))

使用用户自定义词典



命名实体识别

词性标注


python 复制代码
import jieba.posseg as pseg
pseg.lcut('我爱北京天安门')
相关推荐
、水水水水水18 小时前
RAG学习(五)——查询构建、Text2SQL、查询重构与分发
人工智能·python·深度学习·nlp
深度学习机器3 天前
LangExtract:基于LLM的信息抽取框架|附项目解析与实战代码
llm·nlp·agent
一宿君9 天前
Github 9 个惊艳的开源 NL2SQL 项目
sql·nlp·github
AustinCyy10 天前
【论文笔记】DOC: Improving Long Story Coherence With Detailed Outline Control
论文阅读·nlp
乔公子搬砖14 天前
NLP 2025全景指南:从分词到128专家MoE模型,手撕BERT情感分析实战(第四章)
人工智能·ai·自然语言处理·nlp·aigc
Gyoku Mint17 天前
自然语言处理×第四卷:文本特征与数据——她开始准备:每一次输入,都是为了更像你地说话
人工智能·pytorch·神经网络·语言模型·自然语言处理·数据分析·nlp
java1234_小锋19 天前
【NLP舆情分析】基于python微博舆情分析可视化系统(flask+pandas+echarts) 视频教程 - 词云图-微博评论词云图实现
python·自然语言处理·flask·nlp·nlp舆情分析
charlee4421 天前
PandasAI连接LLM对MySQL数据库进行数据分析
mysql·数据分析·nlp·pandasai·deepseek
热心不起来的市民小周22 天前
True or False? 基于 BERT 学生数学问题误解检测
深度学习·nlp·bert