🎯 前言
你好啊,我是你的人类朋友!!
今天我们来聊聊 AI 领域那些常听到但可能不太清楚的具体概念。
本文重点介绍:大语言模型、Transformer、Token、Prompt、Fine-tuning、AI Agent、MCP等核心概念。
如果你对这些 AI 相关的概念都晕乎乎的,那么这篇文章就适合你!!
🔥 核心概念速览
【✨ 最重要的一集了,孩子们】大语言模型(Large Language Model, LLM):基于海量文本数据训练的深度学习模型,能够理解和生成自然语言。核心特点是参数规模巨大(通常数十亿至万亿),具备强大的语言理解和生成能力。
深度学习(Deep Learning):深度学习就是让电脑通过多层网络结构,自己从数据中找出规律的方法
Transformer 架构:2017 年 Google 提出的神经网络架构,采用自注意力机制(Self-Attention),完全替代了传统的 RNN 和 LSTM,成为现代大语言模型的基础。
小贴士:RNN (Recurrent Neural Network,循环神经网络) 一种能处理"序列"数据(比如一句话、一段语音)的神经网络。它的特点是自带"记忆",能按顺序处理信息,并记住之前的内容。
小贴士:LSTM (Long Short-Term Memory,长短时记忆网络) RNN 的一个升级版、改良款。它解决了 RNN"记性不好"的问题,能更好地记住和利用更久之前的信息。
小贴士:Transformer 架构 一种更先进的、处理序列数据的模型架构。它的核心机制是"自注意力",能让模型在处理一个词时,同时关注输入句子中的所有其他词,并判断哪些词更重要。这比 RNN 和 LSTM 那种必须按顺序处理的方式更高效、效果更好,所以成为了现在所有大语言模型的基石。
补充:Transformer 的核心是注意力机制,允许模型在处理每个词时关注输入序列中的所有词,实现并行计算和长距离依赖建模。【长距离依赖建模指的是模型能够理解和处理序列中较远的依赖关系,而不仅仅是相邻的依赖关系。说人话就是,模型能够理解和处理句子中较远的单词之间的关系,而不仅仅是相邻的单词之间的关系。】
Token(词元):文本处理的基本单元。中文通常以字或词为 Token,英文以单词或子词为 Token。模型将输入文本分割成 Token 序列进行处理。
Prompt(提示):用户提供给 AI 模型的输入指令或文本,用于引导模型生成期望的输出。
Prompt 工程(Prompt Engineering) :设计和优化 Prompt 的技术方法,包括指令设计、上下文提供、示例演示等策略,旨在更有效地激发模型能力。
Fine-tuning(微调):在预训练模型基础上,使用特定领域数据继续训练的过程。使通用模型适应具体任务,提升专业领域表现。
☺️ 小贴士:性能调优的英语是:Performance Tuning,可以顺便积累下!
tuning:n. 调谐,调整,调音
举个 🌰:
假设你有一个预训练的 LLM,它已经在通用文本上进行了训练。现在你想让这个模型能够更好地理解和生成关于"医疗"领域的文本。你可以使用医疗领域的数据集对模型进行微调。微调过程中,模型会根据新数据调整其参数,使模型在医疗任务上表现更好。
AI Agent(智能体):能够感知环境、做出决策并执行动作的智能系统。具备规划、工具使用、记忆等能力,可完成复杂任务链。
AI 编辑器:AI 编辑器是集成了大语言模型能力的代码或文本编辑工具,能够提供智能补全、错误检测、代码生成等功能。
补充:在特定语境下,Cursor、Trae 这样的产品通常被称为 AI-Native IDE 或 AI-First Editor。
多模态:指的是模型能够处理和理解多种不同类型的输入和输出,例如文本、图像、语音等。我个人认为,kimi 的多模态做的就挺好的。
RAG(Retrieval-Augmented Generation):一种结合检索和生成的模型架构,能够从外部知识库中获取信息并生成符合要求的文本。
GPT(Generative Pre-trained Transformer):一种基于 Transformer 架构的大语言模型,由 OpenAI 开发。它在通用文本上进行了预训练,具备强大的语言理解和生成能力。
ChatGPT(Chat Generative Pre-trained Transformer):OpenAI 开发的基于 GPT 架构的对话模型,具备强大的语言理解和生成能力。用户可以通过与 ChatGPT 进行对话交互,实现智能问答、任务执行等功能。
小贴士:Gpt 和 ChatGPT 的关系?
GPT 是 ChatGPT 的核心基础模型,而 ChatGPT 是针对对话交互场景专门优化的 GPT 应用版本。
常见问题:🤔
-
Q1: DeepSeek 和 Kimi 属于上述什么?
-
A: DeepSeek 和 Kimi 都是【大语言模型的具体产品实现】🎯。它们基于 Transformer 架构开发,通过 Fine-tuning 优化了对话能力,可以作为 AI Agent 的基础平台。
-
Q2: DeepSeek 和 Kimi 属于 AI Agent 吗?
-
A: 不完全属于 ❌。它们本质上是大语言模型,但可以通过调用外部工具来扮演 AI Agent 的角色。DeepSeek 和 Kimi 本身是专门用于对话的大模型,不是 AI Agent。但当它们能联网搜索、计算或使用其他工具帮你完成任务时,就在扮演 AI Agent 的角色啦!🦸♂️
追问:那我使用 kimi 联网搜索资料的时候,它是 AI Agent 吗? 回答:是的兄弟,是的。当 Kimi 为你执行联网搜索时,它就是在扮演 AI Agent 的角色! 🤖
-
Q3: 所以 AI Agent 到底是什么?
-
A: AI Agent 是能自主理解目标、制定计划并执行行动的智能系统。🤖
-
Q4: Trae、Cursor、Trelent 这样的 AI 编辑器是 AI Agent 吗?它们和 AI Agent 的关系是什么?
-
A: AI 编辑器是综合应用产品 🔧。它们不是单一的 AI Agent,而是集成了大语言模型、Prompt 工程,并可能内嵌了具备 AI Agent 能力的模块(如自动完成复杂任务)的技术落地形态。
-
Q5: 什么是 AI 编辑器?
-
A: AI 编辑器是集成了 AI 能力的代码或文本编辑工具 💻。它通过大语言模型提供智能补全、错误检测、代码生成和文档编写等功能,以显著提升创作或开发效率。🚀
-
Q6: 什么是 MCP(Model-Centric Prompting)?
-
A: MCP 就像一套为 AI 模型打造的"万能工具插槽"和"标准说明书"📚。它不是一个需要训练的技巧,而是一个标准化的协议。通过这个协议,大语言模型(比如 DeepSeek)可以安全、规范地连接到各种外部工具、数据源或 API(比如数据库、搜索引擎、公司内部系统),从而直接调用这些"外部能力"来执行复杂任务,极大地扩展了模型本身的能力边界。✨ 说人话的总结就是:MCP 是让 AI 学会"即插即用"地安全使用外部工具的标准化规范。🔌
🌰 这边举个例子来帮助理解 MCP 吧!
😆 从现在开始,"我"就是一个具备 AI Agent 能力的大语言模型
现在,你问我:"帮我规划一下明天下午参观广州塔的行程,并告诉我晚上的珠江夜游还有没有票。"🎡
在没有 MCP 时,我只能根据过时的信息给你一个大概的行程模板,并说明我无法查询实时票务。😅
但通过 MCP,我可以:
🔍 直接联网搜索广州塔近期的开放时间和推荐游览时长,为你生成精准的行程。
🎫 安全地连接珠江夜游的官方票务系统,实时查询余票情况并告诉你结果。
这样一来,我就从一个只能提供静态知识的助手,变成了能调用实时工具为你解决实际问题的智能代理。🤩
- Q7: Token 和 Prompt 是如何与 LLM 交互的?
- A: 这是 LLM 的"输入-处理-输出" 流水线:🔄
📥 输入:你的问题(Prompt)被拆分成一个个 Token(词元)。
⚙️ 处理:LLM 基于 Transformer 架构处理这些 Token,理解其含义。
📤 输出:LLM 再生成一系列 Token 作为回答,组合成你看到的文本。
- Q7:智能体和 AI Agent 有什么区别?
- A:"智能体"和"AI Agent"没有本质区别,它们是同一概念的不同表述。"AI Agent"是其完整的英文名称(Artificial Intelligence Agent),而"智能体"是它在中文语境下的常用翻译。两者都指能够感知环境、自主规划并执行行动以实现目标的智能系统。
🚀 重点说一下下面这些比较重要的概念!
- Transformer 是基础架构:所有现代大语言模型都基于 Transformer
- Token 是处理单元:模型通过 Token 理解文本
- Prompt 是交互接口:用户通过 Prompt 与模型沟通
- Fine-tuning 是优化手段:让通用模型变得专业
- AI Agent 是高级形态:结合多种能力的智能系统
📚 timeline - AI 发展时间线
2017 年
- Transformer 架构 - Google 发布《Attention Is All You Need》论文,奠定现代 LLM 基础
2018 年
- BERT - Google 推出,基于 Transformer 的预训练模型
- GPT - OpenAI 发布第一代 GPT 模型
2019 年
- GPT-2 - OpenAI 发布,展示更强文本生成能力
2020 年
- GPT-3 - 推出 1750 亿参数版本,展现惊人 few-shot 学习能力(few-shot 表示模型在未见过的任务上也能表现出良好的性能,下面我会再补充一些例子 👇)
补充:Few-Shot 学习能力指的是大语言模型无需针对新任务进行额外训练,仅通过在输入指令中提供少量任务示例,就能理解并执行该未知任务的能力。
例如,当你给出几个"将英文人名转换为中文"的示例后,模型就能准确地将新遇到的英文人名"Alice"转换为"爱丽丝"。
- Prompt 工程 - 随着 GPT-3 流行而兴起
2021 年
- Codex - OpenAI 发布,支撑 GitHub Copilot
- 多模态 - CLIP、DALL-E 等模型推动多模态发展
2022 年
- ChatGPT - 发布即引爆全球 AI 热潮
- Stable Diffusion - 开源图像生成模型普及
- AI 编辑器 - Cursor、Trae 等 AI 原生编辑器出现
2023 年
- GPT-4 - 支持多模态的更强模型(多模态前面说过了,其实就是指模型可以同时处理文本和图像等多种输入)
- AI Agent - AutoGPT、LangChain 等推动智能体发展【智能体其实就是指具备自主决策和执行能力的 AI 系统,它可以在环境中感知、理解、计划和执行任务。】
- 大模型爆发 - 国内 DeepSeek、Kimi、通义千问等纷纷发布
2024 年
- RAG 技术 - 成为增强模型知识的重要手段
- MCP 协议 - 模型上下文协议,标准化 AI 工具连接
- AI 应用深化 - 各领域 AI 产品快速迭代落地
👋 最后
本人正在疯狂补充自己关于 AI 领域的一些常见概念,希望能帮到大家。
有疏漏或者错误请指出~~
下次见!!