文本预处理——文本处理的基本方法

目录

什么是分词

jieba分词特性

精确模式分词

python 复制代码
import jieba
content='工信处女干事每月经过下属科室都要亲口交代24口交换机等技术性器件的安装工作'
print(jieba.lcut(content,cut_all=False))

全模式分词

python 复制代码
import jieba
content='工信处女干事每月经过下属科室都要亲口交代24口交换机等技术性器件的安装工作'
print(jieba.lcut(content,cut_all=True))

搜索引擎模式分词

python 复制代码
import jieba
content='工信处女干事每月经过下属科室都要亲口交代24口交换机等技术性器件的安装工作'
print(jieba.lcut_for_search(content))

使用用户自定义词典



命名实体识别

词性标注


python 复制代码
import jieba.posseg as pseg
pseg.lcut('我爱北京天安门')
相关推荐
江小皮不皮1 天前
为何选择MCP?自建流程与Anthropic MCP的对比分析
人工智能·llm·nlp·aigc·sse·mcp·fastmcp
zeroporn2 天前
在Mac M1/M2上使用Hugging Face Transformers进行中文文本分类(完整指南)
macos·分类·数据挖掘·nlp·transformer·预训练模型·文本分类
老朋友此林3 天前
MiniMind:3块钱成本 + 2小时!训练自己的0.02B的大模型。minimind源码解读、MOE架构
人工智能·python·nlp
老马啸西风3 天前
sensitive-word-admin v2.0.0 全新 ui 版本发布!vue+前后端分离
vue.js·ui·ai·nlp·github·word
Alfred king7 天前
华为昇腾910B通过vllm部署InternVL3-8B教程
llm·nlp·vllm部署
io_T_T8 天前
(NLP)关键词提取之——TF-IDF解析
python·nlp
John15915111 天前
#Paper Reading# DeepSeek-R1
gpt·llm·nlp·deepseek
老马啸西风12 天前
敏感词 v0.25.0 新特性之 wordCheck 策略支持用户自定义
人工智能·ai·nlp·中文分词·openai·deepseek·mcp
崔高杰17 天前
On the Biology of a Large Language Model——Claude团队的模型理解文章【论文阅读笔记】其二——数学计算部分
论文阅读·人工智能·笔记·语言模型·nlp
人月新话18 天前
AI翻译LangChain实现的一点思考
nlp