文本预处理——文本处理的基本方法

目录

什么是分词

jieba分词特性

精确模式分词

python 复制代码
import jieba
content='工信处女干事每月经过下属科室都要亲口交代24口交换机等技术性器件的安装工作'
print(jieba.lcut(content,cut_all=False))

全模式分词

python 复制代码
import jieba
content='工信处女干事每月经过下属科室都要亲口交代24口交换机等技术性器件的安装工作'
print(jieba.lcut(content,cut_all=True))

搜索引擎模式分词

python 复制代码
import jieba
content='工信处女干事每月经过下属科室都要亲口交代24口交换机等技术性器件的安装工作'
print(jieba.lcut_for_search(content))

使用用户自定义词典



命名实体识别

词性标注


python 复制代码
import jieba.posseg as pseg
pseg.lcut('我爱北京天安门')
相关推荐
Rabbit_QL4 天前
【BPE实战】从零实现 BPE 分词器:训练、编码与解码
python·算法·nlp
这张生成的图像能检测吗4 天前
(论文速读)XLNet:语言理解的广义自回归预训练
人工智能·计算机视觉·nlp·注意力机制
肾透侧视攻城狮4 天前
《NLP核心能力构建:从传统统计到上下文感知的文本表示演进之路》
人工智能·nlp·fasttext·word2vec/glove·elmo/n-gram/词袋·doc2vec/lda·句向量与文档向量
换个名字就很好5 天前
cursor安装和编程
nlp
智海观潮6 天前
Vanna-ai - 让自然语言对话SQL数据库成为可能,支持多种数据库,大模型和向量存储
大数据·nlp·aigc
TvxzFtDBIxok11 天前
基于MATLAB/Simulink的4机10节点系统暂态稳定性仿真
nlp
查无此人byebye14 天前
【超详细解读(GPU)】基于DiT的MNIST扩散模型(DDPM)完整实现
python·深度学习·nlp·transformer·多分类
乌萨奇53714 天前
【2025考研复试】深度学习扩展知识:从ViT到多模态,以及简历项目挖掘策略(第11章复盘)
人工智能·深度学习·考研·计算机视觉·nlp·多模态
查无此人byebye14 天前
基于DiT+DDPM的MNIST数字生成:模型推理实战教程
人工智能·python·深度学习·nlp·transformer
Yaozh、15 天前
【word2vec模型】两种模型结构CBOW和Skip-gram的具体过程
人工智能·深度学习·神经网络·自然语言处理·nlp·word2vec