文本预处理——文本处理的基本方法

目录

什么是分词

jieba分词特性

精确模式分词

python 复制代码
import jieba
content='工信处女干事每月经过下属科室都要亲口交代24口交换机等技术性器件的安装工作'
print(jieba.lcut(content,cut_all=False))

全模式分词

python 复制代码
import jieba
content='工信处女干事每月经过下属科室都要亲口交代24口交换机等技术性器件的安装工作'
print(jieba.lcut(content,cut_all=True))

搜索引擎模式分词

python 复制代码
import jieba
content='工信处女干事每月经过下属科室都要亲口交代24口交换机等技术性器件的安装工作'
print(jieba.lcut_for_search(content))

使用用户自定义词典



命名实体识别

词性标注


python 复制代码
import jieba.posseg as pseg
pseg.lcut('我爱北京天安门')
相关推荐
uncle_ll1 天前
李宏毅NLP-6-seq2seq&HMM
人工智能·自然语言处理·nlp·李宏毅·hmm
架构师那点事儿2 天前
从字典到词频-NLP词向量演技解析
人工智能·python·nlp
Q同学3 天前
字节ReTool:大模型也要学会善于利用工具
llm·nlp·强化学习
机器学习Zero4 天前
自然语言处理(9)—— 共现词矩阵及Python实现
人工智能·python·自然语言处理·nlp
uncle_ll5 天前
李宏毅NLP-4-语音识别part3-CTC
人工智能·自然语言处理·nlp·语音识别·ctc
Q同学5 天前
OpenAI发布o3和o4-mini模型:全面工具访问的最强大模型
llm·nlp·强化学习
@程序员ALMJ7 天前
自然语言处理(NLP)技术。
nlp
終不似少年遊*12 天前
【NLP解析】多头注意力+掩码机制+位置编码:Transformer三大核心技术详解
人工智能·自然语言处理·大模型·nlp·transformer·注意力机制
uncle_ll12 天前
李宏毅NLP-2-语音识别part1
人工智能·自然语言处理·nlp·语音识别·李宏毅