NLP基础

自然语言处理（Natural Language Processing，简称NLP）是计算机科学、人工智能和语言学交叉领域的一个分支，它致力于使计算机能够理解、解释和生成人类的自然语言。

（1）词表/词库（Vocabulary）：文本数据集中出现的所有单词的集合（不会存在重复的词）。

（2）语料库（Corpus）：用于NLP任务的文本数据集合，可以是大规模的书籍、文章、网页等。

（3）词嵌入（Word Embedding）：将单词映射到低维连续向量空间的技术，用于捕捉单词的语义和语法信息。

（4）停用词（Stop Words）：在文本处理中被忽略的常见单词，如"a"、"the"、"is"等，它们通常对文本的意义贡献较小。

（5）分词（Tokenization）：将文本分割成一个个单词或标记的过程，为后续处理提供基本的单位。

（6）词频（Term Frequency）：在给定文档中，某个单词出现的次数。

（7）逆文档频率（Inverse Document Frequency）：用于衡量一个单词在整个语料库中的重要性，是将词频取倒数并取对数的值。

（8） TF-IDF（Term Frequency-Inverse Document Frequency）：一种常用的文本特征表示方法，综合考虑了词频和逆文档频率。

（9）词袋模型（Bag of Words）：将文本表示为一个单词的集合，忽略了单词的顺序和语法结构。

（10）N-gram：连续的N个单词构成的序列，用于捕捉文本中的局部特征和上下文信息。

（11）序列：指的是一个按顺序排列的元素集合。这些元素可以是字符、单词、句子，甚至更抽象的结构。序列的每个元素都有特定的顺序和位置，这意味着它们不能随意重排，否则会影响其意义或功能。

序列的常见类型

字符序列 ：
- 一个字符串就是一个字符序列，每个字符按顺序排列。
- 例子："hello" 是一个由 h、e、l、l、o 组成的字符序列。
单词序列 ：
- 一句话可以看作是一个单词序列，每个单词按照一定顺序排列。
- 例子："I love NLP" 是一个由 I、love、NLP 组成的单词序列。
时序数据 ：
- 在时间序列中，元素是按时间顺序排列的，常用于预测问题。
- 例子：股票价格数据可以看作是随时间变化的数值序列。
语音序列 ：
- 在语音处理任务中，语音信号可以被分解为按时间顺序排列的帧序列（特征向量序列）。
其他序列 ：
- 序列还可以表示一些更抽象的结构，比如DNA序列（由碱基组成的序列）、事件序列等。

语料获取 -> 语料预处理(去除非文本，中文分词，词性标注，去除停用词) -> 文本向量化（特征工程）-> 模型搭建 -> 模型训练 -> 模型评价

特征工程在自然语言处理（NLP）中是指从原始文本数据中提取有用的信息，将其转换为机器学习模型可以理解和使用的数值特征的过程。

词向量（Word Embedding）是自然语言处理中的一种技术，用于将文本中的单词表示为高维空间中的向量。这些向量捕捉了单词的语义和语法信息，并且在向量空间中，语义相似的单词通常具有相近的向量表示。词向量的主要目的是将离散的词汇转换为连续的数值表示，以便可以应用于机器学习和深度学习模型。

独热编码（One-Hot Encoding） 是一种常见的特征表示方法，通常用于将离散的类别型数据转换为数值型表示，以便输入到机器学习模型中。它的特点是将每个类别表示为一个向量，在该向量中，只有一个元素为1，其余元素全部为0。

词频（TF）

逆文档频率（Inverse Document Frequency, IDF）

TF-IDF

n-grams 是特征工程中的一种技术，它通过将文本中的连续 n 个词（或字符）组合起来，形成一个短语来捕捉文本中的局部上下文信息。n 可以为 1、2、3 等，具体取决于希望捕捉的上下文范围。

什么是 n-grams？

1-gram（Unigram） ：每个单独的词作为一个单位。例如，"I love NLP" 的 1-gram 是 ["I", "love", "NLP"]。
2-grams（Bigram） ：相邻的两个词组合成一个短语。例如，"I love NLP" 的 2-grams 是 ["I love", "love NLP"]。
3-grams（Trigram） ：相邻的三个词组合成一个短语。例如，"I love NLP" 的 3-grams 是 ["I love NLP"]。

LP" 的 2-grams 是 ["I love", "love NLP"]。

3-grams（Trigram） ：相邻的三个词组合成一个短语。例如，"I love NLP" 的 3-grams 是 ["I love NLP"]。

n-grams通常与TF-IDF一同使用