文本预处理——文本处理的基本方法

目录

什么是分词

jieba分词特性

精确模式分词

python 复制代码
import jieba
content='工信处女干事每月经过下属科室都要亲口交代24口交换机等技术性器件的安装工作'
print(jieba.lcut(content,cut_all=False))

全模式分词

python 复制代码
import jieba
content='工信处女干事每月经过下属科室都要亲口交代24口交换机等技术性器件的安装工作'
print(jieba.lcut(content,cut_all=True))

搜索引擎模式分词

python 复制代码
import jieba
content='工信处女干事每月经过下属科室都要亲口交代24口交换机等技术性器件的安装工作'
print(jieba.lcut_for_search(content))

使用用户自定义词典



命名实体识别

词性标注


python 复制代码
import jieba.posseg as pseg
pseg.lcut('我爱北京天安门')
相关推荐
华农DrLai41 分钟前
怎么用大模型生成推荐的训练数据?Data Augmentation怎么做?
数据库·人工智能·大模型·nlp·prompt
极光代码工作室3 天前
基于BERT的新闻文本分类系统
深度学习·nlp·bert·文本分类
Learn Beyond Limits4 天前
神经机器翻译|Neural Machine Translation(NMT)
人工智能·神经网络·机器学习·ai·自然语言处理·nlp·机器翻译
羊小猪~~5 天前
LLM--VIT简介
大模型·llm·nlp·多模态·多模态大模型·vit·ai算法
lin_dec+6 天前
KV Cache:大模型推理加速的关键技术
nlp·transformer·vllm·大模型推理·kv cache
Learn Beyond Limits6 天前
多层循环神经网络|Multi-layer RNNs
人工智能·rnn·深度学习·神经网络·机器学习·自然语言处理·nlp
羊小猪~~7 天前
LLM--BERT架构解析
人工智能·深度学习·大模型·llm·nlp·bert·ai算法
带娃的IT创业者7 天前
期中总结:从神经元到 GPT——AI 架构全景回顾(Version B)
人工智能·gpt·深度学习·神经网络·架构·nlp·transformer
Learn Beyond Limits9 天前
长短期记忆网络|LSTM(Long Short-Term Memory)
人工智能·rnn·深度学习·神经网络·自然语言处理·nlp·lstm
Learn Beyond Limits9 天前
双向循环神经网络|Bi-RNN(Bidirectional Recurrent Neural Networks)
人工智能·rnn·深度学习·神经网络·语言模型·自然语言处理·nlp