1. NLP课程大纲

NLP 学习大纲:

自然语言处理入门

文本预处理

RNN及其变体

Transformer

迁移学习

1. 自然语言处理入门

1.1 什么是自然语言处理

计算机科学与语言学中 关注于计算机与人类语言间转换的领域

1.2 AI 的几个时间点

1️⃣ CV领域 2012年分水岭 :2012年 alxnet网络出现,用深度学习的方法解决 CV问题
2️⃣ NLP领域 2017年分水岭 :2017年之前,使用传统的机器学习技术,还有经典的循环网络来解决问题;2017年之后,深度学习技术来解决 NLP的问题 - 预训练模型

1.3 自然语言处理的应用场景

语言助手、机器翻译、搜索引擎、文本摘要、文本分类

2. 文本预处理

2.1 什么是文本预处理

将文本语料进行一系列的预处理,符合模型输入;

(自然语言处理就是处理文本的,文本即一段话或者字符串,需要把文本进行一系列预处理,让它符合模型的输入,但模型只认识数字,不认识中文、英文即其它,所以需要把文本处理成模型可识别的形式;处理的手段如下:)

2.2 文本处理的基本方法

1️⃣ 分词;

2️⃣ 命名实体识别;

3️⃣ 词性标注;

2.3 文本张量的表示方法

1️⃣ 什么是张量?

(就是把一段文本变成一个向量,如何变?:先分词,每个单词变成一个向量,把这些单词拼接到一块,变成一句话的向量,此为 文本张量;)

2️⃣ 张量的作用:

3️⃣ 实现方式:one-hot编码、Word2vec、Word Embedding

(对于张量的实现方式:① one-hot 是所有文本张量表示的鼻祖,机器学习中通过 get_dummies方法:churn_df = pd.get_dummies(churn_df, columns=['Churn', 'gender'])【案例之 逻辑回归_电信用户流失预测】

② 其次是 Word2vec,Word2vec包含两种:CBOW、Skip-gram;

③ 最后是 词嵌入 nn.Embedding:现在主要是 Embedding;在 Embedding和 Word2vec之间还有一个方法:GloVe;

④ GloVe 和 Word2vec区别:Word2vec是基于窗口来做的,一段话有一个滑动窗口,3个词滑动一次,滑动窗口有一个非常大的局限性:只考虑了局部状态;GloVe 考虑的是 全局状态;)

2.4 文本数据分析

文本数据分析的方法:

标签数量分布、句子长度分布、词频统计与关键词词云;

2.5 文本特征处理

文本特征处理的方法:添加 n-gram特征、文本长度规范;

2.6 文本数据增强

文本数据增强的方法:会议数据增强法;


3.RNN 及其变体

4. Transformer

5. 迁移学习

相关推荐
子榆.9 小时前
CANN TensorFlow适配器:当tf.matmul跑在昇腾NPU上时在底层发生了什么
人工智能·neo4j·llama
Black蜡笔小新9 小时前
企业级AI模型工作站DLTM深度学习推理工作站助力制造业迈入智能质检新时代
人工智能·深度学习
风落无尘9 小时前
《智能重生:从垃圾堆到AI工程师》——第十章 多模态与具身
人工智能·transformer·视频编解码
金融RPA机器人丨实在智能9 小时前
物流行业选自动化方案,如何评估与现有系统的集成难度?深度解析2026集成避坑指南
大数据·运维·人工智能·自动化
sanshengshi1349 小时前
私有化个人办公AI助手从零搭建完整教程(开源轻量化·个人PC适配版)
人工智能
冬奇Lab9 小时前
Agent系列(三):Plan-and-Solve——先想清楚,再动手
人工智能·llm·agent
冬奇Lab10 小时前
每日一个开源项目 #110:ai-engineering-from-scratch - 从零构建 AI 工程全栈能力
人工智能·深度学习·llm
夜郎king10 小时前
基于 Trae Solo 的 Ant 遗留项目编译方案 —— 以 BaseformEpanet 为例
人工智能·trae solo·水力模型·java水力模型编译
测试员周周10 小时前
【Appium 系列】第20节-测试项目结构设计 — 从脚本到工程
人工智能·数据挖掘·回归·单元测试·appium·测试用例·测试覆盖率