1. NLP课程大纲

NLP 学习大纲：

自然语言处理入门

文本预处理

RNN及其变体

Transformer

迁移学习

1. 自然语言处理入门

1.1 什么是自然语言处理

计算机科学与语言学中关注于计算机与人类语言间转换的领域

1.2 AI 的几个时间点

1️⃣ CV领域 2012年分水岭 ：2012年 alxnet网络出现，用深度学习的方法解决 CV问题 ；
2️⃣ NLP领域 2017年分水岭 ：2017年之前，使用传统的机器学习技术，还有经典的循环网络来解决问题；2017年之后，深度学习技术来解决 NLP的问题 - 预训练模型；

1.3 自然语言处理的应用场景

语言助手、机器翻译、搜索引擎、文本摘要、文本分类

2. 文本预处理

2.1 什么是文本预处理

将文本语料进行一系列的预处理，符合模型输入；

（自然语言处理就是处理文本的，文本即一段话或者字符串，需要把文本进行一系列预处理，让它符合模型的输入，但模型只认识数字，不认识中文、英文即其它，所以需要把文本处理成模型可识别的形式；处理的手段如下：）

2.2 文本处理的基本方法

1️⃣ 分词；

2️⃣ 命名实体识别；

3️⃣ 词性标注；

2.3 文本张量的表示方法

1️⃣ 什么是张量？

（就是把一段文本变成一个向量，如何变？：先分词，每个单词变成一个向量，把这些单词拼接到一块，变成一句话的向量，此为文本张量；）

2️⃣ 张量的作用：

3️⃣ 实现方式：one-hot编码、Word2vec、Word Embedding

（对于张量的实现方式：① one-hot 是所有文本张量表示的鼻祖，机器学习中通过 get_dummies方法：churn_df = pd.get_dummies(churn_df, columns=['Churn', 'gender'])【案例之逻辑回归_电信用户流失预测】

② 其次是 Word2vec，Word2vec包含两种：CBOW、Skip-gram；

③ 最后是词嵌入 nn.Embedding：现在主要是 Embedding；在 Embedding和 Word2vec之间还有一个方法：GloVe；

④ GloVe 和 Word2vec区别：Word2vec是基于窗口来做的，一段话有一个滑动窗口，3个词滑动一次，滑动窗口有一个非常大的局限性：只考虑了局部状态；GloVe 考虑的是全局状态；）

1. NLP课程大纲

1. 自然语言处理入门

1.1 什么是自然语言处理

1.2 AI 的几个时间点

1.3 自然语言处理的应用场景

2. 文本预处理

2.1 什么是文本预处理

2.2 文本处理的基本方法

2.3 文本张量的表示方法

2.4 文本数据分析

2.5 文本特征处理

2.6 文本数据增强

3.RNN 及其变体

4. Transformer

5. 迁移学习