文本预处理——文本处理的基本方法

目录

什么是分词

jieba分词特性

精确模式分词

python 复制代码
import jieba
content='工信处女干事每月经过下属科室都要亲口交代24口交换机等技术性器件的安装工作'
print(jieba.lcut(content,cut_all=False))

全模式分词

python 复制代码
import jieba
content='工信处女干事每月经过下属科室都要亲口交代24口交换机等技术性器件的安装工作'
print(jieba.lcut(content,cut_all=True))

搜索引擎模式分词

python 复制代码
import jieba
content='工信处女干事每月经过下属科室都要亲口交代24口交换机等技术性器件的安装工作'
print(jieba.lcut_for_search(content))

使用用户自定义词典



命名实体识别

词性标注


python 复制代码
import jieba.posseg as pseg
pseg.lcut('我爱北京天安门')
相关推荐
angleboy819 小时前
【LLM Agents体验 1】Dify框架的安装指南
人工智能·语言模型·大模型·nlp
龙的爹23331 天前
论文 | Evaluating the Robustness of Discrete Prompts
人工智能·gpt·自然语言处理·nlp·prompt·agi
Watermelo6173 天前
从模糊搜索到语义搜索的进化之路——探索 Chroma 在大模型中的应用价值
python·机器学习·搜索引擎·语言模型·自然语言处理·数据挖掘·nlp
gzroy4 天前
中文词向量质量的评估
人工智能·语言模型·nlp
向阳12185 天前
python NLTK快速入门
python·ai·nlp
龙的爹23335 天前
论文翻译 | PROMPTAGATOR : FEW-SHOT DENSE RETRIEVAL FROM 8 EXAMPLES
人工智能·深度学习·算法·语言模型·自然语言处理·nlp·prompt
Zhank106 天前
基于milvus的多模态检索
人工智能·nlp
Sookie--6 天前
基于Pyecharts的数据可视化开发(二)调用通义千问api分析爬虫数据
人工智能·爬虫·python·信息可视化·语言模型·自然语言处理·nlp
龙的爹23337 天前
论文 | PROMPTAGATOR : FEW-SHOT DENSE RETRIEVAL FROM 8 EXAMPLES
人工智能·深度学习·算法·机器学习·语言模型·nlp·prompt
汀、人工智能7 天前
NLP算法工程师精进之路:顶会论文研读精华
llm·nlp