【AI入门基础】AI核心知识点速查手册

前言

人工智能（AI）作为当今科技领域最前沿的技术之一，正在深刻改变各行各业。从机器学习到深度学习，从自然语言处理到计算机视觉，AI的应用场景不断扩展。掌握AI核心知识点对于理解这一领域至关重要。

AI22个核心知识点速查手册

1. 神经网络

模拟生物神经系统的计算模型，由相互连接的节点（神经元）组成，能够学习数据中的复杂模式。

卷积：提取图像局部特征的滑动窗口操作
矩阵乘法：神经网络计算的核心，输入×权重
激活函数：引入非线性（ReLU、Sigmoid等）
RNN：循环神经网络，处理序列数据，有记忆能力
CNN：卷积神经网络，处理图像数据，层次提取特征

2. 拟合

模型在训练数据上表现良好

定义：模型学习数据规律的过程
欠拟合：学得太少，无法捕捉规律
过拟合：学得太死，记住噪声
解决：正则化、Dropout、增加数据

3. 泛化

模型在未见过的数据上也能表现良好

定义：模型对新数据的预测能力
核心：发现普适规律，而非死记训练集
评估：测试集性能、交叉验证

4. 检索增强生成（RAG）

结合检索系统与生成模型。先检索相关文档，再让 LLM 基于事实生成答案，提升准确性

定义：LLM + 外部知识检索
流程：索引 → 检索 → 增强 → 生成
优势：更新知识、减少幻觉、成本低

5. 深度学习

定义：多层神经网络自动学习特征
特点：端到端、层次化表示、数据驱动
关键：大数据 + 大模型 + 大算力

6. 智能体（Agent）

定义：能感知、决策、行动的AI系统
组件：规划 + 记忆 + 工具 + 行动
架构：LLM作为大脑，驱动完成任务

7. 监督学习

模型训练基于带标签的数据（如图片对应的分类标签）

定义：从标注数据学习映射
要素：特征、标签、损失函数、梯度下降
应用：分类、回归、检测

8. 无监督学习

模型训练基于无标签的数据，算法需要自主发现数据中的规律或结构（如聚类）

定义：从无标注数据发现结构
任务：聚类、降维、密度估计、生成
价值：数据探索、预训练

9. 强化学习

模型通过与环境交互，获取奖励信号来学习决策策略，常用于游戏、机器人控制

定义：通过环境交互学习最优策略
要素：状态、动作、奖励、策略
应用：游戏AI、机器人、RLHF（LLM对齐）

10. 向量数据库

用于存储海量高维向量的数据库。

定义：存储和查询高维向量的数据库
核心：嵌入 + 相似性搜索（ANN）
产品：Milvus、Pinecone、Chroma

11. 知识图谱

将知识组织成节点和关系的图结构，常用于构建智能体的语义理解能力

定义：实体-关系-实体的图结构知识库
形式：<头实体, 关系, 尾实体>
应用：搜索、问答、推荐、GraphRAG

12. Python

定位：AI领域主导语言
优势：语法简洁、生态丰富
核心库：NumPy、Pandas、PyTorch、TensorFlow

13. Token（词元）

定义：文本拆分的最小处理单元
分词：BPE、WordPiece（子词级）
注意：计费单位、上下文窗口限制

14. MCP（Model Context Protocol）

用于管理和监控模型上下文的协议，支持动态服务器管理

定义：AI模型与外部工具的开放协议
作用：标准化集成，类似"USB-C接口"
组成：MCP服务器 + MCP客户端

15. 机器学习

通过数据学习模型，以自动完成任务的技术。

定义：从数据学习规律，无需明确编程
三大范式：监督、无监督、强化学习
流程：数据 → 特征 → 模型 → 训练 → 部署

16. 自然语言处理（NLP）

研究计算机理解、生成、处理人类语言的AI分支

定义：计算机理解、生成人类语言
演进：规则 → 统计 → 神经网络 → 大模型
任务：翻译、情感分析、问答、对话

17. 多模态

能够同时处理和理解多种数据模态（文本、图像、音频、视频等）的AI系统。

定义：处理多种数据类型（文本、图像、音频、视频）
核心：跨模态对齐与融合
模型：CLIP、GPT-4V、Sora

18. 大语言模型（LLM）

基于Transformer架构、参数量巨大（数十亿至数万亿）、在海量文本上预训练的语言模型。

定义：基于Transformer、参数量巨大的语言模型
能力：上下文学习、指令遵循、推理涌现
代表：GPT、Claude、Llama、DeepSeek

19. 数据标注

为原始数据（图像、文本、音频等）添加结构化标签的过程，是监督学习的基石。

定义：为数据添加标签的过程
类型：图像标注、文本标注、语音转录
挑战：成本高、主观性、长尾分布

20. Transformer

基于自注意力机制的模型，能够并行处理序列数据，解决了 RNN 的长期依赖问题，是 GPT 系列模型的基础

定义：基于自注意力的深度学习架构
核心：多头注意力、位置编码、残差连接
变体：Encoder（BERT）、Decoder（GPT）、Seq2Seq（T5）

21. PyTorch

定义：Meta开发的深度学习框架
特点：动态图、调试友好、研究首选
生态：TorchVision、Lightning、Hugging Face

22. TensorFlow

定义：Google开发的深度学习框架
特点：静态图、工业级部署、跨平台
工具：TensorBoard、TFX、TensorFlow Lite

知识体系串联

AI（人工智能）

├── 机器学习（ML）

│ ├── 监督学习（7）→ 需数据标注（19）

│ ├── 无监督学习（8）

│ └── 强化学习（9）

│

├── 深度学习（5）→ 基于神经网络（1）

│ ├── 基础：CNN、RNN、Transformer（20）

│ ├── 框架：PyTorch（21）、TensorFlow（22）

│ ├── 应用：NLP（16）、多模态（17）

│ └── 大模型：LLM（18）→ Token（13）

│

├── 工程化

│ ├── RAG（4）= LLM + 向量数据库（10）+ 知识图谱（11）

│ ├── 智能体（6）：LLM + 工具 + 记忆 + 规划

│ └── MCP（14）：标准化工具集成协议

│

└── 基础设施：Python（12）编程 + 数据标注（19）

这22个知识点覆盖了从理论基础（拟合、泛化）到核心技术（深度学习、Transformer），再到工程实践（RAG、Agent、MCP）的完整AI技术栈。建议按基础概念 → 核心算法 → 框架工具 → 前沿应用的路径深入学习。