LLM基础知识，langchainV1.0讲解（一）

NLP是什么？

NLP：自然语言处理

它的作用就是让计算机"理解、处理和生成人类语言"。

NLP发展史

1. 基于规则

复制代码

这个阶段的NLP主要用于把自然语言中的信息，提取成程序能直接用的字段。

比如

抽取时间、日期
抽取金额、数量
抽取编号、手机号、身份证号

用户输入了一段文本："订单将于2025年5月1日发货，金额199元"，发现包含时间和金额就

json 复制代码

{
  "date": "2025-05-01",
  "price": 199
}

系统通过规则发现文本中包含时间和金额 ，于是解析成结构化数据。后续业务程序只需要处理这段 JSON，而不再关心原始文本的自然语言形式。

可以看出，在这个阶段的 NLP 中：

系统不会理解用户的真实意图
不会结合上下文进行推断
不会补全隐含信息
也不会"猜测"用户想表达什么

它只做一件事：

判断文本是否命中既定规则，并在命中时输出确定的结构化结果

因此，基于规则的 NLP 并不具备上下文理解能力 ，

它更像是一个 "语言格式解析器" ，而不是"语言理解系统"。

2. 基于统计

核心思想

不再完全依赖人工规则，而是通过统计大量文本中词语的出现频率和组合规律，来推断语言模式。 基于统计的

比如最简单的N_Gram模型

什么是 N-Gram？

N-Gram 假设：
当前词的出现，只与前面 N-1 个词有关。

例如：

1-Gram：只看当前词本身
2-Gram（Bigram）：看前 1 个词
3-Gram（Trigram）：看前 2 个词

我们以2-Gram为列：会看前面的一个词。

我们将以下内容训练给模型：

复制代码

"我 爱 吃 苹果"
"我 爱 吃 香蕉"
"我 喜欢 吃 苹果"

Bigram 模型会根据一个词统计下一个词出现的概率，这里我们可以数一数所有词对：

前一个词	下一个词	次数
我	爱	2 次
我	喜欢	1 次
爱	吃	2 次
喜欢	吃	1 次
吃	苹果	2 次
吃	香蕉	1 次

根据这个词的组合，就可以去预测一个词的下一个词，比如：

我后面出现"爱"的概率是 2/3，出现"喜欢"的概率是 1/3。
吃后面出现"苹果"的概率是 2/3，出现"香蕉"的概率是 1/3。

所以：

如果你看到"我爱吃"，那下一个词大概率是"苹果"！

这里有人要问了：为什么有的词对是一个字，有的词对是两个字，这就涉及到token的概念了。

常说的token是什么？

Token 是模型处理文本的最小"计算单位"

platform.openai.com/tokenizer，我...

每个颜色都代表一个token。可以看到"我爱吃苹果"这句话，转换成LL处理的最小单位就是

"我" "爱" "吃" "苹果"

那自然，在统计概率的时候，也要按照这个词对进行统计，因为模型处理的永远都是token，输出的时候也是按照token进行的输出。

3. 深度学习和大数据驱动

随着互联网的发展，文本数据规模呈指数级增长，同时计算能力（尤其是 GPU）的提升，使得 深度学习方法开始被引入 NLP 领域。

这一阶段的核心变化是：

不再人为设计规则或统计特征，而是让模型自动学习语言的表示和规律。

核心思想

在深度学习驱动的 NLP 中，系统不再只关心：

"这个词出现过多少次"
"下一个词的概率是多少"

而是开始学习：

词与词之间的语义关系，以及它们在上下文中的含义。（这个就是向量相似）

关键技术演进

1️⃣ 词向量（Word Embedding）

通过神经网络，将词映射到连续向量空间中：

复制代码

"手机" ≈ "电脑"
"北京" ≈ "上海"

相似语义的词，在向量空间中距离更近。

这使得模型第一次具备了 "语义相似性"的概念。

2️⃣ Transformer 模型

Transformer 的提出，彻底改变了 NLP 的发展方向。

它通过 自注意力机制（Self-Attention） ：

同时关注句子中的所有词
捕捉长距离依赖
大幅提升并行计算能力

这为大规模预训练模型奠定了基础。

预训练语言模型与大语言模型（LLM）

在 Transformer 架构基础上，人们提出了：

预训练 + 微调（Pretrain + Finetune）
超大规模语料训练

模型通过一个核心任务进行学习：

根据上下文，预测下一个词（Token）

但由于模型规模、数据规模和训练方式的跃迁，

这种"预测"逐渐表现出：

语义理解
推理能力
生成能力

最终形成了今天的大语言模型（LLM）。

在这一阶段：

模型不再依赖人工规则
不再依赖人工特征
可以在上下文中综合理解语言

总结

可以看出，目前的大语言模型在数学本质上仍然是概率模型，其推理与生成能力来源于统计学习与规模效应，而非人类意义上的主观思考。