文本预处理——文本处理的基本方法

目录

什么是分词

jieba分词特性

精确模式分词

python 复制代码
import jieba
content='工信处女干事每月经过下属科室都要亲口交代24口交换机等技术性器件的安装工作'
print(jieba.lcut(content,cut_all=False))

全模式分词

python 复制代码
import jieba
content='工信处女干事每月经过下属科室都要亲口交代24口交换机等技术性器件的安装工作'
print(jieba.lcut(content,cut_all=True))

搜索引擎模式分词

python 复制代码
import jieba
content='工信处女干事每月经过下属科室都要亲口交代24口交换机等技术性器件的安装工作'
print(jieba.lcut_for_search(content))

使用用户自定义词典



命名实体识别

词性标注


python 复制代码
import jieba.posseg as pseg
pseg.lcut('我爱北京天安门')
相关推荐
終不似少年遊*14 小时前
词向量与词嵌入
人工智能·深度学习·nlp·机器翻译·词嵌入
qq_15321452642 天前
Openai Dashboard可视化微调大语言模型
人工智能·语言模型·自然语言处理·chatgpt·nlp·gpt-3·transformer
花千树-0102 天前
Java中的自然语言处理(NLP)工具:Stanford NLP、Apache OpenNLP、DL4J
java·自然语言处理·nlp·aigc·apache
奔跑的蜗牛啊啊4 天前
linux部署olloma deespeek
nlp
終不似少年遊*4 天前
Transformer 的核心技术Encoder、Decoder、注意力模块解析
人工智能·深度学习·nlp·transformer·注意力机制
studying_mmr4 天前
Word Embeddings
机器学习·数据挖掘·nlp·data mining
南太湖小蚂蚁5 天前
自然语言处理入门1——单词的表示和距离
人工智能·python·深度学习·nlp
studying_mmr6 天前
Natural Language Processing NLP
数据挖掘·nlp·data mining
歌刎6 天前
华为昇腾 910B 部署 DeepSeek-R1 蒸馏系列模型详细指南
linux·人工智能·华为·语言模型·nlp
Q同学8 天前
一张4060完成一个miniLLM全流程训练(一):预训练
深度学习·llm·nlp