NLP入门

NLP入门+文本预处理

什么是自然语言处理?

让计算机去理解人类语言

认识文本预处理

文本预处理及作用

前提:之前用pandas等进行数据分析,也属于文本预处理的范围

文本预处理作用:将文本转换成模型能够识别的形式,进而实现模型的训练

文本预处理的基本方法:

分词:

分词的意义:

一般实现模型训练的时候,模型接受的文本基本最小单位是词语,因此我们需要对文本进行分词

词语是语意理解的基本单元

英文具有天然的空格分隔符,而中文分词的目的:寻找一个合适的分词边界,进行准确分词

常用分词工具:

jieba分词工具

精确模式:就是按照人类擅长的表达词汇的习惯来分词

全模式分词:将尽可能成词的词汇分割出来

搜索引擎模式:

在精确模式分词的基础上,将长粒度的词再次切分

支持中文繁体分词

支持用户自定义词典

词典的意义:

可以根据自定义词典,修改jieba分词方式,优先考虑词典里面的词来切分

格式:词语 词频(可省略) 词性(可省略)

命名实体识别(NER)

定义:

命名实体:通常指: 人名,地名,机构名等专有名词

NER:从一段文本中识别出上述描述的命名实体

实现方式:

模型训练(后续项目)

词性标注

定义:

对每个词语进行词性的标注: 动词,名词,形容词等

文本张量的表示方式

文本张量表示

意义:将文本转换为向量(数字)的形式,使得模型能够识别进而实现训练,一般是进行词向量的表示实现的方式:

one-hot

word2Vec

wordEmbedding

One-Hot 词向量表示

定义:针对每一个词汇,都会用一个向量表示,向量的长度是n,n代表去重 之后的词汇总量,而且向量只有0,和1两种数字

俗称:独热编码,01编码

ONe-Hot编码的缺点

割裂了词与词之间的联系

如果n过大,会导致占用大量的内存(维度爆炸)

Word2Vec模型

Word2Vec是一种无监督训练方法,本质是训练一个模型,将模型的参数矩阵当作所有词汇的词向量表示

两种训练方式: cbow,skipgram

CBOW介绍

给一段文本,选择一定的窗口,然后利用上下文预测中间目标值

相关推荐
乔公子搬砖18 小时前
NLP 2025全景指南:从分词到128专家MoE模型,手撕BERT情感分析实战(第四章)
人工智能·ai·自然语言处理·nlp·aigc
Gyoku Mint5 天前
自然语言处理×第四卷:文本特征与数据——她开始准备:每一次输入,都是为了更像你地说话
人工智能·pytorch·神经网络·语言模型·自然语言处理·数据分析·nlp
java1234_小锋6 天前
【NLP舆情分析】基于python微博舆情分析可视化系统(flask+pandas+echarts) 视频教程 - 词云图-微博评论词云图实现
python·自然语言处理·flask·nlp·nlp舆情分析
charlee448 天前
PandasAI连接LLM对MySQL数据库进行数据分析
mysql·数据分析·nlp·pandasai·deepseek
热心不起来的市民小周9 天前
True or False? 基于 BERT 学生数学问题误解检测
深度学习·nlp·bert
xiaoli232713 天前
课题学习笔记3——SBERT
笔记·学习·nlp·bert
java1234_小锋15 天前
[免费]【NLP舆情分析】基于python微博舆情分析可视化系统(flask+pandas+echarts)【论文+源码+SQL脚本】
python·flask·nlp·舆情分析·微博舆情分析
Easy数模15 天前
使用llm进行高级主题建模:通过利用 BERTopic 的表示模型和生成式 AI 深入探讨主题建模
人工智能·llm·nlp
在未来等你16 天前
RAG实战指南 Day 24:上下文构建与提示工程
nlp·rag·retrieval-augmented generation·prompt engineering·context management
AI大模型19 天前
基于 RAG 和 Claude 的智能文档聊天系统实战指南
程序员·llm·nlp