AI 入门知识点学习扫盲

AI 大模型技术体系介绍与依赖发展关系梳理

一、整体技术发展脉络

这几个概念不是孤立的，它们之间大致可以理解为一条从"模型原理"到"应用落地"的发展链路：

复制代码

Transformer 原理
      ↓
大语言模型 LLM
      ↓
Prompt 工程
      ↓
LangChain / 应用编排框架
      ↓
RAG 检索增强生成
      ↓
Agent 智能体
      ↓
多 Agent 协作
      ↓
MCP 工具协议 / 外部系统接入
      ↓
AI 网关 / 企业级统一管控
      ↓
Ollama / 本地模型部署与运行

可以简单理解为：

Transformer 是底层模型原理，Prompt 是使用模型的方法，LangChain 是组织大模型应用的框架，RAG 是解决知识增强的问题，Agent 是让模型具备任务执行能力，多 Agent 是多个智能体协同，MCP 是统一工具接入协议，AI 网关是企业级统一管理入口，Ollama 是本地运行模型的一种部署方式。

1. Transformer 原理

1.1 概念介绍

Transformer 是当前大语言模型的核心基础架构。像 GPT、Claude、Gemini、LLaMA、Qwen、DeepSeek 等大模型，本质上都与 Transformer 架构有密切关系。

Transformer 最早用于自然语言处理任务，它的核心能力是：

通过注意力机制理解文本中不同词语之间的关系，从而生成更符合上下文的内容。

传统模型处理文本时，通常按顺序一个词一个词处理，比如 RNN、LSTM。Transformer 不同，它可以同时关注一句话中的多个位置，因此训练效率更高，对长文本关系的理解也更强。

1.2 核心机制

Transformer 中最重要的机制是：

自注意力机制 Self-Attention

自注意力机制可以理解为：

模型在理解一个词时，不是只看这个词本身，而是会看它和句子中其他词之间的关系。

例如：

复制代码

小明把苹果放进书包，因为它太重了。

这里的"它"指的是"苹果"还是"书包"，模型需要根据上下文判断。Self-Attention 就是帮助模型建立这种上下文关系的关键机制。

多头注意力 Multi-Head Attention

一个注意力头可能关注语法关系，另一个注意力头可能关注语义关系，还有一个可能关注指代关系。

多个注意力头并行工作，可以让模型从多个角度理解文本。

位置编码 Positional Encoding

Transformer 本身不天然理解词语顺序，所以需要位置编码告诉模型每个词在句子中的位置。

例如：

复制代码

我喜欢你
你喜欢我

词一样，但顺序不同，意思就不同。位置编码就是为了解决这个问题。

1.3 在 AI 技术体系中的作用

Transformer 是整个大模型体系的底座。

后面的 Prompt、RAG、Agent、MCP、AI 网关，本质上都是围绕大模型能力进行增强和工程化封装。

也就是说：

复制代码

没有 Transformer，就没有当前主流的大语言模型；
没有大语言模型，后面的 Prompt、RAG、Agent 就没有核心推理能力。

2. Prompt 工程

2.1 概念介绍

Prompt 工程是指通过设计输入给大模型的提示词，让模型输出更准确、更稳定、更符合业务需求的结果。

大模型本身是一个通用能力很强的模型，但如果问题问得太模糊，模型输出也可能不稳定。

例如：

复制代码

帮我写个日报

这个 Prompt 太简单，模型不知道你的岗位、项目、工作内容、格式要求。

更好的 Prompt 是：

复制代码

你是一名 Java 开发工程师，请根据以下工作内容生成一份项目日报。
要求：
1. 使用正式工作汇报语气；
2. 分为今日完成、问题处理、明日计划三部分；
3. 内容简洁，不要口语化。

工作内容：
......

这就是 Prompt 工程的作用。

2.2 常见 Prompt 技巧

角色设定

告诉模型它应该扮演什么角色。

复制代码

你是一名资深 Java 架构师。

任务说明

明确告诉模型要完成什么任务。

复制代码

请帮我分析这段异常日志的根因。

输出格式约束

指定模型按照固定格式输出。

复制代码

请按照"问题现象、原因分析、解决方案、验证方式"四部分输出。

提供上下文

给模型足够的背景材料。

复制代码

以下是报错日志、代码片段和数据库版本信息。

示例引导

给模型一个示例，让模型模仿格式。

复制代码

参考以下格式生成：
......

2.3 与 Transformer / LLM 的关系

Prompt 工程不是模型训练，而是模型使用方式。

它依赖大语言模型的理解和生成能力。

关系如下：

复制代码

Transformer → 大语言模型 → Prompt 工程

Transformer 让模型具备语言理解能力，Prompt 工程负责把这个能力引导到具体任务上。

3. LangChain

3.1 概念介绍

LangChain 是一个大模型应用开发框架，主要用于把大模型、Prompt、工具、知识库、记忆、工作流等能力组织起来。

如果只调用大模型 API，一般只能完成简单问答。

但真实业务系统中，通常需要：

调用数据库；
查询知识库；
调用接口；
处理上下文；
维护多轮对话；
组合多个模型；
执行复杂流程。

LangChain 就是为了解决这些工程编排问题。

3.2 LangChain 主要能力

Prompt 管理

可以把提示词模板化，支持变量填充。

复制代码

请根据用户问题：{question}
结合以下资料：{context}
生成回答。

Chain 链式调用

把多个步骤串起来。

例如：

复制代码

用户问题
  ↓
问题改写
  ↓
知识库检索
  ↓
构造 Prompt
  ↓
调用大模型
  ↓
输出答案

Memory 记忆

保存用户历史对话，让模型具备上下文连续性。

Tool 工具调用

让模型可以调用外部工具，比如：

搜索引擎；
数据库；
API；
文件系统；
代码执行器。

Agent 智能体支持

LangChain 可以作为 Agent 应用的开发框架，让模型自己判断要调用哪个工具、执行什么步骤。

3.3 与 Prompt、RAG、Agent 的关系

LangChain 本身不是大模型，也不是 RAG，也不是 Agent。

它更像是一个"应用开发框架"。

它可以承载：

复制代码

Prompt 工程
RAG 流程
Agent 工具调用
多轮对话
复杂任务编排

依赖关系可以理解为：

复制代码

大语言模型 + Prompt
        ↓
LangChain 进行应用编排
        ↓
构建 RAG / Agent / 多工具应用

4. RAG

4.1 概念介绍

RAG 全称是 Retrieval-Augmented Generation，中文通常叫"检索增强生成"。

它的核心思想是：

模型回答问题之前，先从外部知识库中检索相关资料，再把资料交给大模型生成答案。

大模型本身有几个问题：

训练数据可能过时；
不知道企业内部资料；
容易产生幻觉；
无法保证答案一定来自可信资料。

RAG 就是为了解决这些问题。

4.2 RAG 基本流程

复制代码

用户提问
  ↓
问题向量化
  ↓
从向量数据库 / 知识库中检索相关文档
  ↓
把检索结果拼接进 Prompt
  ↓
调用大模型生成答案
  ↓
返回带依据的回答

4.3 RAG 涉及的关键组件

文档加载

把 Word、PDF、Excel、网页、数据库内容加载进系统。

文档切分

把长文档拆成小片段，方便检索。

Embedding 向量化

把文本转成向量，用于语义检索。

向量数据库

用于存储和检索文本向量，例如：

Milvus；
Elasticsearch；
PostgreSQL pgvector；
FAISS；
Chroma。

检索器 Retriever

根据用户问题查找相关内容。

生成器 Generator

将检索到的内容交给大模型生成最终答案。

4.4 与 LangChain 的关系

LangChain 可以帮助开发 RAG 应用。

它提供了文档加载、切分、检索、Prompt 拼接、模型调用等封装。

关系如下：

复制代码

LangChain 是框架
RAG 是一种应用模式

也可以说：

复制代码

RAG 可以用 LangChain 实现，但 RAG 不等于 LangChain。

4.5 RAG 的典型应用

企业知识库问答；
项目文档助手；
合同审查；
运维知识库；
代码文档问答；
数据治理知识库；
客服机器人。

5. Agent

5.1 概念介绍

Agent 通常翻译为"智能体"。

它和普通聊天机器人的区别在于：

普通大模型应用主要是回答问题；

Agent 不只是回答问题，还可以自己规划任务、调用工具、执行动作。

例如，普通模型只能回答：

复制代码

你应该怎么查数据库连接失败问题。

而 Agent 可以执行：

复制代码

1. 分析报错日志；
2. 判断可能原因；
3. 调用数据库连接测试工具；
4. 查询配置；
5. 给出最终处理建议。

5.2 Agent 的核心能力

任务理解

理解用户要完成什么目标。

任务规划

把复杂任务拆成多个步骤。

工具选择

判断当前步骤需要调用哪个工具。

工具执行

调用外部系统，例如数据库、API、搜索引擎、文件系统。

结果反思

根据工具返回结果判断是否继续执行下一步。

5.3 Agent 的典型结构

复制代码

用户目标
  ↓
LLM 理解任务
  ↓
规划执行步骤
  ↓
选择工具
  ↓
调用工具
  ↓
观察结果
  ↓
继续推理或输出最终结果

5.4 与 RAG 的关系

RAG 主要解决"知识增强"问题。

Agent 主要解决"任务执行"问题。

RAG 更像是：

复制代码

帮模型查资料后回答

Agent 更像是：

复制代码

让模型自己决定要查什么、调用什么、怎么完成任务

两者可以结合：

复制代码

Agent 负责规划任务
RAG 负责提供知识资料
工具负责执行动作
LLM 负责推理和生成

例如企业运维 Agent：

复制代码

用户：帮我分析 Hive Kerberos 登录失败原因。

Agent：
1. 读取错误日志；
2. 检索知识库中的 Kerberos 处理文档；
3. 判断 keytab、principal、krb5.conf 是否异常；
4. 调用配置检查工具；
5. 输出根因和处理步骤。

6. MCP

6.1 概念介绍

MCP 全称是 Model Context Protocol，中文可以理解为"模型上下文协议"。

它的目标是为大模型应用提供一种标准化方式，让模型可以连接外部工具、数据源和业务系统。

可以把 MCP 理解为：

复制代码

大模型连接外部世界的标准接口协议

在没有 MCP 之前，不同工具接入大模型时，通常需要各自写一套适配逻辑。

有了 MCP 之后，可以通过统一协议暴露工具能力，让模型或 Agent 更方便地调用。

6.2 MCP 解决的问题

工具接入不统一

不同系统有不同 API，每个 Agent 都要单独适配。

上下文传递不规范

模型需要知道工具能做什么、参数是什么、返回什么。

工具复用困难

一个工具接入了某个平台，换个平台可能还要重新开发。

企业系统集成复杂

企业内部可能有数据库、数据源、元数据平台、项目系统、权限系统、文件系统等，MCP 可以作为统一接入层。

6.3 MCP 的作用

MCP 可以把外部能力包装成标准工具，例如：

查询数据库；
查询元数据；
查询项目；
查询租户；
查询数据源；
查询集群配置；
读取文件；
调用业务 API；
执行脚本。

这样 Agent 就可以通过统一方式调用这些能力。

6.4 与 Agent 的关系

MCP 和 Agent 的关系非常紧密。

Agent 需要工具才能执行任务，MCP 提供标准化工具接入方式。

关系如下：

复制代码

Agent 负责思考和规划
MCP 负责提供工具和上下文
外部系统负责真实执行

可以理解为：

复制代码

Agent 是大脑
MCP 是神经接口
工具和系统是手脚

7. AI 网关

7.1 概念介绍

AI 网关是企业级大模型应用中的统一入口层。

它的作用类似传统微服务中的 API 网关，但面向的是大模型调用场景。

在企业中，可能会同时使用多个模型：

OpenAI；
Claude；
Gemini；
Qwen；
DeepSeek；
LLaMA；
本地 Ollama 模型；
私有化部署模型。

如果每个业务系统都直接对接不同模型，会导致管理混乱。

AI 网关就是为了解决统一接入、统一鉴权、统一限流、统一计费、统一审计的问题。

7.2 AI 网关核心能力

统一模型入口

业务系统只调用 AI 网关，由网关转发到不同模型。

复制代码

业务系统 → AI 网关 → OpenAI / Qwen / DeepSeek / 本地模型

鉴权认证

控制哪些用户、应用、租户可以调用哪些模型。

限流控制

防止模型调用过量，保护系统稳定性。

计费统计

统计不同用户、租户、应用的 token 消耗和费用。

日志审计

记录请求内容、响应内容、调用耗时、模型名称等。

模型路由

根据场景选择不同模型。

例如：

复制代码

简单问答 → 小模型
复杂推理 → 强模型
代码生成 → 代码模型
本地私密数据 → 私有化模型

敏感词与安全控制

对输入和输出进行安全过滤，防止敏感数据泄露。

降级与容灾

当某个模型不可用时，自动切换到备用模型。

7.3 与 LangChain / Agent / MCP 的关系

AI 网关通常位于模型调用入口处。

复制代码

LangChain / Agent / RAG 应用
          ↓
        AI 网关
          ↓
   多个大模型服务

它不直接负责智能推理，而是负责企业级治理。

可以理解为：

复制代码

LangChain 负责应用编排
Agent 负责任务执行
MCP 负责工具接入
AI 网关负责模型调用管理

8. Ollama

8.1 概念介绍

Ollama 是一个本地运行大模型的工具。

它可以让用户在本地电脑、服务器上快速运行开源大模型，例如 LLaMA、Qwen、DeepSeek、Mistral 等。

它的价值在于：

部署简单；
使用方便；
支持本地运行；
适合学习、开发、测试、私有化场景。

8.2 Ollama 的作用

Ollama 主要解决的是模型运行和部署问题。

例如你可以通过命令运行模型：

复制代码

ollama run qwen2.5

然后本地就可以和模型对话。

也可以作为服务接口给应用调用：

复制代码

应用系统 → Ollama API → 本地大模型

8.3 Ollama 的适用场景

本地学习

适合个人学习大模型、Prompt、RAG、Agent。

内网部署

企业不希望数据发到公网模型时，可以使用本地模型。

开发测试

在本地模拟大模型接口，降低开发成本。

私有知识库

结合 RAG 构建企业内部知识库问答。

8.4 与 AI 网关的关系

Ollama 是模型运行环境，AI 网关是模型管理入口。

关系如下：

复制代码

业务系统
  ↓
AI 网关
  ↓
Ollama
  ↓
本地大模型

也可以说：

复制代码

Ollama 负责把模型跑起来
AI 网关负责把模型管起来

9. 多 Agent

9.1 概念介绍

多 Agent 是指多个智能体协同完成复杂任务。

一个 Agent 可以完成单一任务，但复杂业务往往需要多个角色配合。

比如一个软件开发任务，可能需要：

产品经理 Agent；
架构师 Agent；
后端开发 Agent；
前端开发 Agent；
测试 Agent；
运维 Agent；
文档 Agent。

每个 Agent 有自己的职责、工具和上下文，它们通过协作完成最终目标。

9.2 多 Agent 的典型结构

复制代码

用户目标
  ↓
总控 Agent / Manager Agent
  ↓
任务拆分
  ↓
多个专业 Agent 执行
  ↓
结果汇总
  ↓
最终输出

例如：

复制代码

用户：帮我分析一个数据平台连接 Hive 失败的问题。

总控 Agent：
1. 分配日志分析 Agent 查看异常；
2. 分配配置检查 Agent 检查 Kerberos 配置；
3. 分配知识库 Agent 查询历史问题；
4. 分配解决方案 Agent 汇总处理步骤；
5. 最终给用户输出根因分析。

9.3 多 Agent 的优势

专业分工

每个 Agent 专注一个领域，效果更稳定。

复杂任务拆解

适合长流程、多步骤任务。

并行处理

多个 Agent 可以同时处理不同子任务。

更接近真实团队协作

类似一个虚拟团队，不是单个模型独立完成所有事情。

9.4 多 Agent 的挑战

多 Agent 也不是越多越好，它会带来一些问题：

调度复杂；
成本增加；
多个 Agent 之间可能互相冲突；
上下文传递成本高；
最终结果需要统一校验；
对权限和工具管理要求更高。

所以多 Agent 更适合复杂任务，不适合简单问答。

二、九个概念之间的依赖关系

1. Transformer 是底层基础

复制代码

Transformer → LLM

Transformer 提供模型架构基础。

大语言模型基于 Transformer 训练得到语言理解、推理、生成能力。

没有 Transformer，就没有当前主流大模型能力。

2. Prompt 工程依赖 LLM

复制代码

Transformer → LLM → Prompt 工程

Prompt 工程是使用大模型的方法。

它不改变模型本身，而是通过更好的输入，让模型输出更好的结果。

3. LangChain 依赖 Prompt 和 LLM

复制代码

LLM + Prompt → LangChain

LangChain 把 Prompt、模型、工具、记忆、流程组织起来。

它让大模型应用从简单问答变成复杂业务系统。

4. RAG 依赖 LLM、Embedding、向量库和编排框架

复制代码

LLM
Prompt
Embedding
向量数据库
文档处理
LangChain
   ↓
RAG

RAG 是一种知识增强架构。

它依赖模型生成能力，也依赖外部知识检索能力。

LangChain 常用于实现 RAG，但不是必须。

5. Agent 依赖 LLM、Prompt、工具和编排框架

复制代码

LLM + Prompt + Tools + LangChain
              ↓
            Agent

Agent 比 RAG 更进一步。

RAG 主要是"查资料后回答"，Agent 是"规划任务并执行动作"。

6. 多 Agent 依赖 Agent

复制代码

Agent → 多 Agent

多 Agent 是 Agent 的扩展。

单个 Agent 处理一个任务，多 Agent 通过角色分工处理复杂任务。

7. MCP 服务于 Agent 和多 Agent

复制代码

Agent / 多 Agent
       ↓
      MCP
       ↓
外部工具 / 数据源 / 业务系统

MCP 是工具接入协议。

Agent 需要调用工具，MCP 提供标准化工具能力。

8. AI 网关服务于企业级模型调用管理

复制代码

RAG / Agent / 多 Agent / 业务系统
              ↓
            AI 网关
              ↓
        多个大模型服务

AI 网关不负责具体推理逻辑，而是负责模型统一接入、鉴权、限流、计费、审计和路由。

9. Ollama 是模型部署运行方式

复制代码

Ollama → 本地大模型
AI 网关 → Ollama → 本地模型
LangChain / RAG / Agent → Ollama 模型接口

Ollama 负责让模型在本地运行。

它可以被 LangChain、RAG、Agent 或 AI 网关调用。

三、按照学习顺序推荐

对于 Java 开发工程师来说，建议按照下面顺序学习：

第一阶段：理解底层原理

复制代码

1. Transformer 原理
2. 大语言模型基本概念
3. Prompt 工程

目标是知道大模型为什么能理解文本、怎么更好地使用模型。

第二阶段：掌握应用开发

复制代码

4. LangChain
5. RAG

目标是能做出企业知识库、文档问答、项目助手这类应用。

第三阶段：掌握智能体能力

复制代码

6. Agent
7. 多 Agent

目标是让模型不仅能回答问题，还能调用工具、拆解任务、完成流程。

第四阶段：掌握企业级工程化

复制代码

8. MCP
9. AI 网关
10. Ollama

目标是理解如何把大模型能力接入企业系统，并进行统一管理和私有化部署。

四、整体关系图

复制代码

┌──────────────────────────┐
│      Transformer 原理      
└─────────────┬────────────┘
              ↓
┌──────────────────────────┐
│        大语言模型 LLM      
└─────────────┬────────────┘
              ↓
┌──────────────────────────┐
│        Prompt 工程         
└─────────────┬────────────┘
              ↓
┌──────────────────────────┐
│        LangChain 框架     
└─────────────┬────────────┘
              ↓
        ┌─────┴─────┐
        ↓           ↓
┌──────────────┐ ┌──────────────┐
│     RAG        │    Agent     
└──────┬───────┘ └──────┬───────┘
       ↓                ↓
┌──────────────┐ ┌──────────────┐
│ 企业知识库问答     多 Agent   
└──────────────┘ └──────┬───────┘
                         ↓
                  ┌──────────────┐
                  │     MCP       
                  └──────┬───────┘
                         ↓
                  ┌──────────────┐
                  │ 外部工具/系统 
                  └──────────────┘

同时：

┌──────────────────────────┐
│         AI 网关           
│  统一鉴权/限流/审计/路由   
└─────────────┬────────────┘
              ↓
┌──────────────────────────┐
│ OpenAI/Qwen/DeepSeek/Ollama
└──────────────────────────┘

┌──────────────────────────┐
│          Ollama            
│     本地模型运行与部署      
└──────────────────────────┘

五、用一句话总结每个概念

技术	一句话理解
Transformer	当前大语言模型的核心底层架构
Prompt 工程	通过设计提示词更好地使用大模型
LangChain	大模型应用开发和流程编排框架
RAG	让模型先查知识库再回答，减少幻觉
Agent	让模型具备任务规划和工具调用能力
MCP	让模型标准化连接外部工具和系统
AI 网关	企业统一管理模型调用的入口
Ollama	本地运行开源大模型的工具
多 Agent	多个智能体分工协作完成复杂任务

六、企业落地场景示例

假设企业要建设一个"数据平台智能助手"，这些技术可以这样组合：

复制代码

1. 使用 Ollama 或私有大模型提供基础模型能力；
2. 通过 AI 网关统一管理模型调用；
3. 使用 LangChain 编排应用流程；
4. 使用 RAG 接入企业文档、接口文档、操作手册、日志案例；
5. 使用 Agent 分析用户问题并决定是否调用工具；
6. 使用 MCP 暴露元数据查询、数据源查询、项目查询、集群配置查询等工具；
7. 使用多 Agent 分别处理日志分析、SQL 分析、配置检查、知识库检索；
8. 最终输出问题原因、解决方案和操作步骤。

整体架构可以表示为：

复制代码

用户
 ↓
智能助手前端
 ↓
AI 网关
 ↓
LangChain 应用层
 ↓
Agent / 多 Agent 调度
 ↓
MCP 工具服务
 ↓
元数据平台 / 数据源 / 项目系统 / 日志系统 / 知识库
 ↓
大模型生成最终答案

七、最终总结

这九个概念可以分成四层：

第一层：模型基础层

复制代码

Transformer

解决"模型为什么能理解和生成语言"。

第二层：模型使用层

复制代码

Prompt 工程
Ollama

解决"如何使用模型、如何在本地运行模型"。

第三层：应用构建层

复制代码

LangChain
RAG
Agent
多 Agent

解决"如何把模型变成实际业务应用"。

第四层：企业工程层

复制代码

MCP
AI 网关

解决"如何让模型安全、稳定、标准化地接入企业系统"。

最终依赖关系可以概括为：

复制代码

Transformer 产生大模型能力；
Prompt 工程引导大模型能力；
LangChain 组织大模型应用；
RAG 增强模型知识；
Agent 增强模型执行能力；
多 Agent 增强复杂任务协作能力；
MCP 标准化工具和系统接入；
AI 网关统一管理模型服务；
Ollama 支撑本地模型运行和私有化部署。