人工智能、机器学习、深度学习、大模型、智能体知识点汇总

前言

本文是个人对大模型、智能体等知识点的汇总，力求尽可能的覆盖知识点，以建立初步认知；

技术演进关系

机器学习

机器学习的原理就是通过算法，让计算机能够从大量的数据中发现规律，然后做出预测或者决策。比如，通过分析过去的销售数据，机器学习可以帮助我们预测未来哪个产品会大卖。

深度学习

深度学习是机器学习的一个分支，通常指的是模仿人类大脑皮层，自动提取特征；最常见的深度学习有CNN、RNN、GNN

卷积神经网络（CNN=Convolutional Neural Network），CNN在图像识别领域特别厉害，它能够自动从图像中学习到有用的特征，而不需要人工去设计特征。
- 以卷积操作（Convolution）为核心，通过卷积核（Filter）在输入数据（一般是图像）上滑动以提取局部特征，层层深入获取高级语义信息。
- 对图像识别、目标检测、自然语言处理（词向量局部化处理）等有出色表现。
循环神经网络（RNN=Recurrent Neural Network,），RNN则擅长处理序列数据，比如语音或者文本，它能够记住之前的信息，这对于理解上下文特别重要。
- 在序列数据上表现优异，通过隐藏状态（Hidden State）实现对历史信息的"记忆"，从而捕捉上下文依赖关系。
- 常用于文本生成、机器翻译、语音识别等序列任务。RNN 家族中比较著名的改进有 LSTM 和 GRU，长短期记忆网络（LSTM，Long Short-Term Memory）是一种时间循环神经网络，是为了解决一般的RNN（循环神经网络）存在的长期依赖问题而专门设计出来的，所有的RNN都具有一种重复神经网络模块的链式形式。
图神经网络（GNN=Graph Neural Network）
- 针对图结构数据（如社交网络、推荐系统中的用户关系、分子化学结构、知识图谱等）而设计，通过在图节点或边上进行消息传递、聚合，学习节点或整个图的表征。
- 近年来在社交分析、推荐系统、药物分子发现、知识图谱等领域崛起，被广泛研究和应用。

迁移学习、强化学习、监督学习、无监督学习与深度学习、机器学习的关系解析

深度学习：一种实现机器学习的技术（基于神经网络），可服务于所有学习范式。
其他四者：属于机器学习的方法论，既可用传统算法实现，也可用深度学习实现。

监督学习（Supervised Learning）

核心思想：通过标注数据（输入-输出对）学习模型，预测未知数据的输出。

关键点：

需要大量带标签的数据。
模型学习输入特征与标签之间的映射关系。

典型任务：

分类（输出离散类别，如图像识别）。
回归（输出连续值，如房价预测）。

常见算法：

线性回归、逻辑回归、决策树、支持向量机（SVM）、神经网络等。

无监督学习（Unsupervised Learning）

核心思想：从无标签数据中发现隐藏模式或结构。

关键点：

无明确的目标输出，依赖数据内在关系。
常用于探索性数据分析。

典型任务：

聚类（将相似数据分组，如客户分群）。
降维（减少数据维度，如PCA）。
异常检测（识别异常点）。

常见算法：

K-Means、层次聚类、DBSCAN、主成分分析（PCA）、自编码器等。

强化学习（Reinforcement Learning, RL）

核心思想：智能体通过与环境交互学习策略，以最大化累积奖励。

关键点：

通过试错（trial-and-error）学习。
反馈延迟（奖励可能滞后于动作）。

核心要素：

状态（State）、动作（Action）、奖励（Reward）、策略（Policy）。

典型应用：

游戏AI（如AlphaGo）、机器人控制、自动驾驶。

常见算法：

Q-Learning、深度Q网络（DQN）、策略梯度（Policy Gradient）、PPO等。

迁移学习（Transfer Learning）

核心思想：将已训练模型的知识迁移到新任务，解决数据或算力不足问题。迁移学习，是复用已有学习成果，快速学习新领域的本领，语音识别也是迁移学习的热门应用领域。通过在一个大规模的语音数据库上训练好的模型，可以迁移到新的方言或者口音的识别上，大大提高了识别的准确性和效率。总的来说，迁移学习就像是给了机器一个"快速学习"的能力，让它们能够在新任务上迅速上手，减少了从头开始学习的时间和精力。这种能力在数据稀缺或者任务复杂的情况下尤其宝贵。

关键点：

源任务（Source Task）与目标任务（Target Task）需有一定关联。
通常复用预训练模型的底层特征（如神经网络的前几层）。

典型场景：

小样本学习（如医疗图像分析）。
跨领域迁移（如将自然语言处理的BERT模型用于金融文本分类）。

常见方法：

微调（Fine-tuning）、特征提取、多任务学习等。

LLM（large language model）

大模型是指参数量达到十亿级（Billion）甚至万亿级（Trillion）的深度学习模型，基于海量数据预训练，具备通用任务处理能力；具有强大的认知、推理能力，主要的大模型有通义千问、文心一言、deepseek、chatgpt

关键特征：

规模定律（Scaling Laws）：性能随参数/数据量增加而显著提升
涌现能力（Emergent Abilities）：在超大规模下突然获得的新能力（如逻辑推理）
统一架构：多任务共享同一模型（如Transformer）

LLM vs 传统模型

对比维度	大模型（如GPT-4）	传统机器学习（如SVM）
定义	超大规模参数（十亿+）的预训练通用模型	针对特定任务的小规模专用模型
数据需求	TB级未标注文本/多模态数据	GB级标注结构化数据
计算资源	千张GPU集群（千万美元级成本）	单机CPU/GPU（百美元级成本）
训练方式	自监督学习+微调	监督学习/特征工程
能力特点	零样本学习、多任务泛化	高精度但需任务定制
典型应用	对话生成、跨模态搜索	金融风控、工业质检
优缺点	✅通用性强 ❌黑箱性严重	✅可解释性强 ❌迁移能力差

模态

模态就是大语言模型识别的格式，比如识别文本、图片、音频、视频；如果大模型只能识别一种模式，就叫单模态；如果能识别多种格式，就叫多模态；

生成器

生成式人工智能在各种任务中的出色表现开启了 AIGC（人工智能生成内容）时代。生成模块在 RAG 系统中起着至关重要的作用。不同的生成模型适用于不同的场景，例如用于文本到文本任务的 Transformer 模型、用于图像到文本任务的 VisualGPT、用于文本到图像任务的 Stable Diffusion，以及用于文本到代码任务的 Codex 等。生成器的基础技术包括 Transformer 模型、长短期记忆网络（LSTM）、扩散模型和生成对抗网络（GAN）。

Transformer

Transformer模型是一种用于处理语言数据的神经网络模型，非常适合用于翻译、文本生成和理解等任务。由自注意力机制、前馈网络、层规范化模块和残差网络组成。

扩散模型是一类深度生成模型，可以创建真实且多样化的数据样本（包括图像、文本、视频等。
生成对抗网络（GAN）是备受期待的深度学习模型，可以模拟和生成逼真的图像、音频和其他数据。

RAG vs 微调

预训练的 LLM 可能存在知识截止、容易产生幻觉（编造事实）以及缺乏特定领域深度知识等问题。为了克服这些局限性，并使 LLM 更适应特定任务和场景，检索增强生成 (RAG) 和微调 (Fine-tuning) 是两种主流且有效的技术。rag是通用的，适用于多种任务；微调就是使用特定数据精调试，取决于数据的质量；

检索器

检索是在给定信息需求的情况下识别和获取相关信息。具体来说，让我们考虑可以概念化为键值存储的信息资源，其中每个键对应一个值（键和值可以相同）。给定一个查询，目标是使用相似度函数从数据库中选取最相似的键，并得到配对的值。根据不同的相似度函数，现有的检索方法可以分为稀疏检索、密集检索和其他方法。

稀疏检索方法通常用于文档检索，其中键/值表示要搜索的文档。这些方法利用术语匹配指标，例如 TF-IDF，查询可能性；
BM2.5分析文本中的单词统计数据并构建倒排索引以实现高效搜索。
密集检索方法使用密集嵌入向量表示查询和键，并构建近似最近邻 (ANN) 索引以加快搜索速度。

LangChain

LangChain 是一个用于构建基于大语言模型（LLM）的应用程序的框架，旨在简化将 LLM 与外部数据源、工具和逻辑集成的过程。它的核心作用是增强和扩展大模型的能力，使其更适应实际应用场景。

RAG流程

RAG（Retrieval-Augmented Generation）是一种结合信息检索与文本生成的混合型AI技术，它通过从外部知识库中检索相关信息来增强生成模型的能力。简单来说，就是先将结构化和非结构化的数据，向量化存储到向量数据库，作为一个知识库，再结合原始输入，输入到大模型，提高检索质量。

向量化

文本加载
文本分割
文本向量化
存储到向量库
分词器
- 比如按照空格分词，这种适合英语
- 按照语义分词，这种适合汉语
- 受限于大模型能力，还可以按照token数分词？
关键词检索
- 相当于直接匹配，比如搜索苹果两个字，只搜索字面意思，apple搜索不出来，比如elasticsearch、sql查询
向量检索
- 按照相似度搜索，比如输入苹果或者apple，能通过上下文判断是水果苹果还是苹果公司，常见的向量库搜索
混合检索
- 在实际应用中，关键词搜索和向量搜索，可结合使用；先通过关键词搜索搜索出top k，然后通过向量搜索
重排序
- 分步思考？

function call vs mcp

function call，大模型开放的api，与大模型厂商密切相关，api因厂商、模型不同而不同
mcp，model context protocol，用来屏蔽大模型的差异，可使用统一接口调用大模型

其它

tensorflow和pytorch是用来训练大模型的工具，大模型的核心是transformer，支持分布式训练；
常见AI编程工具： cursor、windsurf 、trae
练手项目llm-universe
anthropic出品的building-effective-agents
ragflow 做知识库检索不错的方案
coze、dify
Ollama是开源跨平台大模型工具,大模型本地化部署工具

人工智能、机器学习、深度学习、大模型、智能体知识点汇总

前言

技术演进关系

机器学习

深度学习

迁移学习、强化学习、监督学习、无监督学习 与 深度学习、机器学习 的关系解析

监督学习（Supervised Learning）

无监督学习（Unsupervised Learning）

强化学习（Reinforcement Learning, RL）

迁移学习（Transfer Learning）

LLM（large language model）

LLM vs 传统模型

模态

生成器

Transformer

RAG vs 微调

检索器

LangChain

RAG流程

向量化

function call vs mcp

其它

参考

迁移学习、强化学习、监督学习、无监督学习与深度学习、机器学习的关系解析