文本预处理——文本处理的基本方法

目录

什么是分词

jieba分词特性

精确模式分词

python 复制代码
import jieba
content='工信处女干事每月经过下属科室都要亲口交代24口交换机等技术性器件的安装工作'
print(jieba.lcut(content,cut_all=False))

全模式分词

python 复制代码
import jieba
content='工信处女干事每月经过下属科室都要亲口交代24口交换机等技术性器件的安装工作'
print(jieba.lcut(content,cut_all=True))

搜索引擎模式分词

python 复制代码
import jieba
content='工信处女干事每月经过下属科室都要亲口交代24口交换机等技术性器件的安装工作'
print(jieba.lcut_for_search(content))

使用用户自定义词典



命名实体识别

词性标注


python 复制代码
import jieba.posseg as pseg
pseg.lcut('我爱北京天安门')
相关推荐
渣渣盟1 天前
解密NLP:从入门到精通
人工智能·python·nlp
只是懒得想了2 天前
使用 Gensim 进行主题建模(LDA)与词向量训练(Word2Vec)的完整指南
人工智能·自然语言处理·nlp·word2vec·gensim
AI人工智能+2 天前
发票识别技术:结合OCR与AI技术,实现纸质票据高效数字化,推动企业智能化转型
人工智能·nlp·ocr·发票识别
东方芷兰3 天前
LLM 笔记 —— 07 Tokenizers(BPE、WordPeice、SentencePiece、Unigram)
人工智能·笔记·深度学习·神经网络·语言模型·自然语言处理·nlp
flying_13143 天前
自然语言处理分享系列-词语和短语的分布式表示及其组合性(一)
自然语言处理·nlp·word2vec·softmax·skip-gram·hierarchical·分层softmax
来酱何人3 天前
文本规范化:缩写还原(“BTW”→“By The Way”)、繁体转简体、拼写纠错的工程化实现
nlp
来酱何人3 天前
词性标注实战:基于BERT的词性标注模型训练,解决生僻词、专业术语标注不准问题
nlp
斐夷所非5 天前
自然语言处理中字节级与令牌级 Transformer 模型的对比分析
nlp
AI人工智能+6 天前
文档抽取技术作为AI和自然语言处理的核心应用,正成为企业数字化转型的关键工具
人工智能·nlp·ocr·文档抽取
马诗剑7 天前
🚀 Qwen2.5-Coder 情感分析微调教程
nlp·通义灵码