AI领域常见概念一览

🎯 前言

你好啊，我是你的人类朋友！！

今天我们来聊聊 AI 领域那些常听到但可能不太清楚的具体概念。

本文重点介绍：大语言模型、Transformer、Token、Prompt、Fine-tuning、AI Agent、MCP等核心概念。

如果你对这些 AI 相关的概念都晕乎乎的，那么这篇文章就适合你！！

🔥 核心概念速览

【✨ 最重要的一集了，孩子们】大语言模型（Large Language Model, LLM）：基于海量文本数据训练的深度学习模型，能够理解和生成自然语言。核心特点是参数规模巨大（通常数十亿至万亿），具备强大的语言理解和生成能力。

深度学习（Deep Learning）：深度学习就是让电脑通过多层网络结构，自己从数据中找出规律的方法

Transformer 架构：2017 年 Google 提出的神经网络架构，采用自注意力机制（Self-Attention），完全替代了传统的 RNN 和 LSTM，成为现代大语言模型的基础。

小贴士：RNN (Recurrent Neural Network，循环神经网络) 一种能处理"序列"数据（比如一句话、一段语音）的神经网络。它的特点是自带"记忆"，能按顺序处理信息，并记住之前的内容。
小贴士：LSTM (Long Short-Term Memory，长短时记忆网络) RNN 的一个升级版、改良款。它解决了 RNN"记性不好"的问题，能更好地记住和利用更久之前的信息。
小贴士：Transformer 架构一种更先进的、处理序列数据的模型架构。它的核心机制是"自注意力"，能让模型在处理一个词时，同时关注输入句子中的所有其他词，并判断哪些词更重要。这比 RNN 和 LSTM 那种必须按顺序处理的方式更高效、效果更好，所以成为了现在所有大语言模型的基石。
补充：Transformer 的核心是注意力机制，允许模型在处理每个词时关注输入序列中的所有词，实现并行计算和长距离依赖建模。【长距离依赖建模指的是模型能够理解和处理序列中较远的依赖关系，而不仅仅是相邻的依赖关系。说人话就是，模型能够理解和处理句子中较远的单词之间的关系，而不仅仅是相邻的单词之间的关系。】

Token（词元）：文本处理的基本单元。中文通常以字或词为 Token，英文以单词或子词为 Token。模型将输入文本分割成 Token 序列进行处理。

Prompt（提示）：用户提供给 AI 模型的输入指令或文本，用于引导模型生成期望的输出。

Prompt 工程（Prompt Engineering） ：设计和优化 Prompt 的技术方法，包括指令设计、上下文提供、示例演示等策略，旨在更有效地激发模型能力。

Fine-tuning（微调）：在预训练模型基础上，使用特定领域数据继续训练的过程。使通用模型适应具体任务，提升专业领域表现。

☺️ 小贴士：性能调优的英语是：Performance Tuning，可以顺便积累下！

tuning：n. 调谐,调整,调音

举个 🌰：

假设你有一个预训练的 LLM，它已经在通用文本上进行了训练。现在你想让这个模型能够更好地理解和生成关于"医疗"领域的文本。你可以使用医疗领域的数据集对模型进行微调。微调过程中，模型会根据新数据调整其参数，使模型在医疗任务上表现更好。

AI Agent（智能体）：能够感知环境、做出决策并执行动作的智能系统。具备规划、工具使用、记忆等能力，可完成复杂任务链。

AI 编辑器：AI 编辑器是集成了大语言模型能力的代码或文本编辑工具，能够提供智能补全、错误检测、代码生成等功能。

补充：在特定语境下，Cursor、Trae 这样的产品通常被称为 AI-Native IDE 或 AI-First Editor。

多模态：指的是模型能够处理和理解多种不同类型的输入和输出，例如文本、图像、语音等。我个人认为，kimi 的多模态做的就挺好的。

RAG（Retrieval-Augmented Generation）：一种结合检索和生成的模型架构，能够从外部知识库中获取信息并生成符合要求的文本。

GPT（Generative Pre-trained Transformer）：一种基于 Transformer 架构的大语言模型，由 OpenAI 开发。它在通用文本上进行了预训练，具备强大的语言理解和生成能力。

ChatGPT（Chat Generative Pre-trained Transformer）：OpenAI 开发的基于 GPT 架构的对话模型，具备强大的语言理解和生成能力。用户可以通过与 ChatGPT 进行对话交互，实现智能问答、任务执行等功能。

小贴士：Gpt 和 ChatGPT 的关系？

GPT 是 ChatGPT 的核心基础模型，而 ChatGPT 是针对对话交互场景专门优化的 GPT 应用版本。

常见问题：🤔

Q1: DeepSeek 和 Kimi 属于上述什么？
A: DeepSeek 和 Kimi 都是【大语言模型的具体产品实现】🎯。它们基于 Transformer 架构开发，通过 Fine-tuning 优化了对话能力，可以作为 AI Agent 的基础平台。
Q2: DeepSeek 和 Kimi 属于 AI Agent 吗？
A: 不完全属于 ❌。它们本质上是大语言模型，但可以通过调用外部工具来扮演 AI Agent 的角色。DeepSeek 和 Kimi 本身是专门用于对话的大模型，不是 AI Agent。但当它们能联网搜索、计算或使用其他工具帮你完成任务时，就在扮演 AI Agent 的角色啦！🦸♂️

追问：那我使用 kimi 联网搜索资料的时候，它是 AI Agent 吗？回答：是的兄弟，是的。当 Kimi 为你执行联网搜索时，它就是在扮演 AI Agent 的角色！ 🤖

Q3: 所以 AI Agent 到底是什么？
A: AI Agent 是能自主理解目标、制定计划并执行行动的智能系统。🤖
Q4: Trae、Cursor、Trelent 这样的 AI 编辑器是 AI Agent 吗？它们和 AI Agent 的关系是什么？
A: AI 编辑器是综合应用产品 🔧。它们不是单一的 AI Agent，而是集成了大语言模型、Prompt 工程，并可能内嵌了具备 AI Agent 能力的模块（如自动完成复杂任务）的技术落地形态。
Q5: 什么是 AI 编辑器？
A: AI 编辑器是集成了 AI 能力的代码或文本编辑工具 💻。它通过大语言模型提供智能补全、错误检测、代码生成和文档编写等功能，以显著提升创作或开发效率。🚀
Q6: 什么是 MCP（Model-Centric Prompting）？
A: MCP 就像一套为 AI 模型打造的"万能工具插槽"和"标准说明书"📚。它不是一个需要训练的技巧，而是一个标准化的协议。通过这个协议，大语言模型（比如 DeepSeek）可以安全、规范地连接到各种外部工具、数据源或 API（比如数据库、搜索引擎、公司内部系统），从而直接调用这些"外部能力"来执行复杂任务，极大地扩展了模型本身的能力边界。✨ 说人话的总结就是：MCP 是让 AI 学会"即插即用"地安全使用外部工具的标准化规范。🔌

🌰 这边举个例子来帮助理解 MCP 吧！

😆 从现在开始，"我"就是一个具备 AI Agent 能力的大语言模型

现在，你问我："帮我规划一下明天下午参观广州塔的行程，并告诉我晚上的珠江夜游还有没有票。"🎡

在没有 MCP 时，我只能根据过时的信息给你一个大概的行程模板，并说明我无法查询实时票务。😅

但通过 MCP，我可以：

🔍 直接联网搜索广州塔近期的开放时间和推荐游览时长，为你生成精准的行程。

🎫 安全地连接珠江夜游的官方票务系统，实时查询余票情况并告诉你结果。

这样一来，我就从一个只能提供静态知识的助手，变成了能调用实时工具为你解决实际问题的智能代理。🤩

Q7: Token 和 Prompt 是如何与 LLM 交互的？
A: 这是 LLM 的"输入-处理-输出" 流水线：🔄

📥 输入：你的问题（Prompt）被拆分成一个个 Token（词元）。

⚙️ 处理：LLM 基于 Transformer 架构处理这些 Token，理解其含义。

📤 输出：LLM 再生成一系列 Token 作为回答，组合成你看到的文本。

Q7：智能体和 AI Agent 有什么区别？
A："智能体"和"AI Agent"没有本质区别，它们是同一概念的不同表述。"AI Agent"是其完整的英文名称（Artificial Intelligence Agent），而"智能体"是它在中文语境下的常用翻译。两者都指能够感知环境、自主规划并执行行动以实现目标的智能系统。

🚀 重点说一下下面这些比较重要的概念！

Transformer 是基础架构：所有现代大语言模型都基于 Transformer
Token 是处理单元：模型通过 Token 理解文本
Prompt 是交互接口：用户通过 Prompt 与模型沟通
Fine-tuning 是优化手段：让通用模型变得专业
AI Agent 是高级形态：结合多种能力的智能系统

📚 timeline - AI 发展时间线

2017 年

Transformer 架构 - Google 发布《Attention Is All You Need》论文，奠定现代 LLM 基础

2018 年

BERT - Google 推出，基于 Transformer 的预训练模型
GPT - OpenAI 发布第一代 GPT 模型

2019 年

GPT-2 - OpenAI 发布，展示更强文本生成能力

2020 年

GPT-3 - 推出 1750 亿参数版本，展现惊人 few-shot 学习能力(few-shot 表示模型在未见过的任务上也能表现出良好的性能，下面我会再补充一些例子 👇)

补充：Few-Shot 学习能力指的是大语言模型无需针对新任务进行额外训练，仅通过在输入指令中提供少量任务示例，就能理解并执行该未知任务的能力。

例如，当你给出几个"将英文人名转换为中文"的示例后，模型就能准确地将新遇到的英文人名"Alice"转换为"爱丽丝"。

Prompt 工程 - 随着 GPT-3 流行而兴起

2021 年

Codex - OpenAI 发布，支撑 GitHub Copilot
多模态 - CLIP、DALL-E 等模型推动多模态发展

2022 年

ChatGPT - 发布即引爆全球 AI 热潮
Stable Diffusion - 开源图像生成模型普及
AI 编辑器 - Cursor、Trae 等 AI 原生编辑器出现

2023 年

GPT-4 - 支持多模态的更强模型(多模态前面说过了，其实就是指模型可以同时处理文本和图像等多种输入)
AI Agent - AutoGPT、LangChain 等推动智能体发展【智能体其实就是指具备自主决策和执行能力的 AI 系统，它可以在环境中感知、理解、计划和执行任务。】
大模型爆发 - 国内 DeepSeek、Kimi、通义千问等纷纷发布

2024 年

RAG 技术 - 成为增强模型知识的重要手段
MCP 协议 - 模型上下文协议，标准化 AI 工具连接
AI 应用深化 - 各领域 AI 产品快速迭代落地

👋 最后

本人正在疯狂补充自己关于 AI 领域的一些常见概念，希望能帮到大家。

有疏漏或者错误请指出~~

下次见！！