AI 入门知识点学习扫盲

AI 大模型技术体系介绍与依赖发展关系梳理

一、整体技术发展脉络

这几个概念不是孤立的,它们之间大致可以理解为一条从"模型原理"到"应用落地"的发展链路:

复制代码
Transformer 原理
      ↓
大语言模型 LLM
      ↓
Prompt 工程
      ↓
LangChain / 应用编排框架
      ↓
RAG 检索增强生成
      ↓
Agent 智能体
      ↓
多 Agent 协作
      ↓
MCP 工具协议 / 外部系统接入
      ↓
AI 网关 / 企业级统一管控
      ↓
Ollama / 本地模型部署与运行

可以简单理解为:

Transformer 是底层模型原理,Prompt 是使用模型的方法,LangChain 是组织大模型应用的框架,RAG 是解决知识增强的问题,Agent 是让模型具备任务执行能力,多 Agent 是多个智能体协同,MCP 是统一工具接入协议,AI 网关是企业级统一管理入口,Ollama 是本地运行模型的一种部署方式。


1. Transformer 原理

1.1 概念介绍

Transformer 是当前大语言模型的核心基础架构。像 GPT、Claude、Gemini、LLaMA、Qwen、DeepSeek 等大模型,本质上都与 Transformer 架构有密切关系。

Transformer 最早用于自然语言处理任务,它的核心能力是:

通过注意力机制理解文本中不同词语之间的关系,从而生成更符合上下文的内容。

传统模型处理文本时,通常按顺序一个词一个词处理,比如 RNN、LSTM。Transformer 不同,它可以同时关注一句话中的多个位置,因此训练效率更高,对长文本关系的理解也更强。

1.2 核心机制

Transformer 中最重要的机制是:

自注意力机制 Self-Attention

自注意力机制可以理解为:

模型在理解一个词时,不是只看这个词本身,而是会看它和句子中其他词之间的关系。

例如:

复制代码
小明把苹果放进书包,因为它太重了。

这里的"它"指的是"苹果"还是"书包",模型需要根据上下文判断。Self-Attention 就是帮助模型建立这种上下文关系的关键机制。

多头注意力 Multi-Head Attention

一个注意力头可能关注语法关系,另一个注意力头可能关注语义关系,还有一个可能关注指代关系。

多个注意力头并行工作,可以让模型从多个角度理解文本。

位置编码 Positional Encoding

Transformer 本身不天然理解词语顺序,所以需要位置编码告诉模型每个词在句子中的位置。

例如:

复制代码
我喜欢你
你喜欢我

词一样,但顺序不同,意思就不同。位置编码就是为了解决这个问题。

1.3 在 AI 技术体系中的作用

Transformer 是整个大模型体系的底座。

后面的 Prompt、RAG、Agent、MCP、AI 网关,本质上都是围绕大模型能力进行增强和工程化封装。

也就是说:

复制代码
没有 Transformer,就没有当前主流的大语言模型;
没有大语言模型,后面的 Prompt、RAG、Agent 就没有核心推理能力。

2. Prompt 工程

2.1 概念介绍

Prompt 工程是指通过设计输入给大模型的提示词,让模型输出更准确、更稳定、更符合业务需求的结果。

大模型本身是一个通用能力很强的模型,但如果问题问得太模糊,模型输出也可能不稳定。

例如:

复制代码
帮我写个日报

这个 Prompt 太简单,模型不知道你的岗位、项目、工作内容、格式要求。

更好的 Prompt 是:

复制代码
你是一名 Java 开发工程师,请根据以下工作内容生成一份项目日报。
要求:
1. 使用正式工作汇报语气;
2. 分为今日完成、问题处理、明日计划三部分;
3. 内容简洁,不要口语化。

工作内容:
......

这就是 Prompt 工程的作用。

2.2 常见 Prompt 技巧

角色设定

告诉模型它应该扮演什么角色。

复制代码
你是一名资深 Java 架构师。

任务说明

明确告诉模型要完成什么任务。

复制代码
请帮我分析这段异常日志的根因。

输出格式约束

指定模型按照固定格式输出。

复制代码
请按照"问题现象、原因分析、解决方案、验证方式"四部分输出。

提供上下文

给模型足够的背景材料。

复制代码
以下是报错日志、代码片段和数据库版本信息。

示例引导

给模型一个示例,让模型模仿格式。

复制代码
参考以下格式生成:
......

2.3 与 Transformer / LLM 的关系

Prompt 工程不是模型训练,而是模型使用方式。

它依赖大语言模型的理解和生成能力。

关系如下:

复制代码
Transformer → 大语言模型 → Prompt 工程

Transformer 让模型具备语言理解能力,Prompt 工程负责把这个能力引导到具体任务上。


3. LangChain

3.1 概念介绍

LangChain 是一个大模型应用开发框架,主要用于把大模型、Prompt、工具、知识库、记忆、工作流等能力组织起来。

如果只调用大模型 API,一般只能完成简单问答。

但真实业务系统中,通常需要:

  • 调用数据库;

  • 查询知识库;

  • 调用接口;

  • 处理上下文;

  • 维护多轮对话;

  • 组合多个模型;

  • 执行复杂流程。

LangChain 就是为了解决这些工程编排问题。

3.2 LangChain 主要能力

Prompt 管理

可以把提示词模板化,支持变量填充。

复制代码
请根据用户问题:{question}
结合以下资料:{context}
生成回答。

Chain 链式调用

把多个步骤串起来。

例如:

复制代码
用户问题
  ↓
问题改写
  ↓
知识库检索
  ↓
构造 Prompt
  ↓
调用大模型
  ↓
输出答案

Memory 记忆

保存用户历史对话,让模型具备上下文连续性。

Tool 工具调用

让模型可以调用外部工具,比如:

  • 搜索引擎;

  • 数据库;

  • API;

  • 文件系统;

  • 代码执行器。

Agent 智能体支持

LangChain 可以作为 Agent 应用的开发框架,让模型自己判断要调用哪个工具、执行什么步骤。

3.3 与 Prompt、RAG、Agent 的关系

LangChain 本身不是大模型,也不是 RAG,也不是 Agent。

它更像是一个"应用开发框架"。

它可以承载:

复制代码
Prompt 工程
RAG 流程
Agent 工具调用
多轮对话
复杂任务编排

依赖关系可以理解为:

复制代码
大语言模型 + Prompt
        ↓
LangChain 进行应用编排
        ↓
构建 RAG / Agent / 多工具应用

4. RAG

4.1 概念介绍

RAG 全称是 Retrieval-Augmented Generation,中文通常叫"检索增强生成"。

它的核心思想是:

模型回答问题之前,先从外部知识库中检索相关资料,再把资料交给大模型生成答案。

大模型本身有几个问题:

  1. 训练数据可能过时;

  2. 不知道企业内部资料;

  3. 容易产生幻觉;

  4. 无法保证答案一定来自可信资料。

RAG 就是为了解决这些问题。

4.2 RAG 基本流程

复制代码
用户提问
  ↓
问题向量化
  ↓
从向量数据库 / 知识库中检索相关文档
  ↓
把检索结果拼接进 Prompt
  ↓
调用大模型生成答案
  ↓
返回带依据的回答

4.3 RAG 涉及的关键组件

文档加载

把 Word、PDF、Excel、网页、数据库内容加载进系统。

文档切分

把长文档拆成小片段,方便检索。

Embedding 向量化

把文本转成向量,用于语义检索。

向量数据库

用于存储和检索文本向量,例如:

  • Milvus;

  • Elasticsearch;

  • PostgreSQL pgvector;

  • FAISS;

  • Chroma。

检索器 Retriever

根据用户问题查找相关内容。

生成器 Generator

将检索到的内容交给大模型生成最终答案。

4.4 与 LangChain 的关系

LangChain 可以帮助开发 RAG 应用。

它提供了文档加载、切分、检索、Prompt 拼接、模型调用等封装。

关系如下:

复制代码
LangChain 是框架
RAG 是一种应用模式

也可以说:

复制代码
RAG 可以用 LangChain 实现,但 RAG 不等于 LangChain。

4.5 RAG 的典型应用

  • 企业知识库问答;

  • 项目文档助手;

  • 合同审查;

  • 运维知识库;

  • 代码文档问答;

  • 数据治理知识库;

  • 客服机器人。


5. Agent

5.1 概念介绍

Agent 通常翻译为"智能体"。

它和普通聊天机器人的区别在于:

普通大模型应用主要是回答问题;

Agent 不只是回答问题,还可以自己规划任务、调用工具、执行动作。

例如,普通模型只能回答:

复制代码
你应该怎么查数据库连接失败问题。

而 Agent 可以执行:

复制代码
1. 分析报错日志;
2. 判断可能原因;
3. 调用数据库连接测试工具;
4. 查询配置;
5. 给出最终处理建议。

5.2 Agent 的核心能力

任务理解

理解用户要完成什么目标。

任务规划

把复杂任务拆成多个步骤。

工具选择

判断当前步骤需要调用哪个工具。

工具执行

调用外部系统,例如数据库、API、搜索引擎、文件系统。

结果反思

根据工具返回结果判断是否继续执行下一步。

5.3 Agent 的典型结构

复制代码
用户目标
  ↓
LLM 理解任务
  ↓
规划执行步骤
  ↓
选择工具
  ↓
调用工具
  ↓
观察结果
  ↓
继续推理或输出最终结果

5.4 与 RAG 的关系

RAG 主要解决"知识增强"问题。

Agent 主要解决"任务执行"问题。

RAG 更像是:

复制代码
帮模型查资料后回答

Agent 更像是:

复制代码
让模型自己决定要查什么、调用什么、怎么完成任务

两者可以结合:

复制代码
Agent 负责规划任务
RAG 负责提供知识资料
工具负责执行动作
LLM 负责推理和生成

例如企业运维 Agent:

复制代码
用户:帮我分析 Hive Kerberos 登录失败原因。

Agent:
1. 读取错误日志;
2. 检索知识库中的 Kerberos 处理文档;
3. 判断 keytab、principal、krb5.conf 是否异常;
4. 调用配置检查工具;
5. 输出根因和处理步骤。

6. MCP

6.1 概念介绍

MCP 全称是 Model Context Protocol,中文可以理解为"模型上下文协议"。

它的目标是为大模型应用提供一种标准化方式,让模型可以连接外部工具、数据源和业务系统。

可以把 MCP 理解为:

复制代码
大模型连接外部世界的标准接口协议

在没有 MCP 之前,不同工具接入大模型时,通常需要各自写一套适配逻辑。

有了 MCP 之后,可以通过统一协议暴露工具能力,让模型或 Agent 更方便地调用。

6.2 MCP 解决的问题

工具接入不统一

不同系统有不同 API,每个 Agent 都要单独适配。

上下文传递不规范

模型需要知道工具能做什么、参数是什么、返回什么。

工具复用困难

一个工具接入了某个平台,换个平台可能还要重新开发。

企业系统集成复杂

企业内部可能有数据库、数据源、元数据平台、项目系统、权限系统、文件系统等,MCP 可以作为统一接入层。

6.3 MCP 的作用

MCP 可以把外部能力包装成标准工具,例如:

  • 查询数据库;

  • 查询元数据;

  • 查询项目;

  • 查询租户;

  • 查询数据源;

  • 查询集群配置;

  • 读取文件;

  • 调用业务 API;

  • 执行脚本。

这样 Agent 就可以通过统一方式调用这些能力。

6.4 与 Agent 的关系

MCP 和 Agent 的关系非常紧密。

Agent 需要工具才能执行任务,MCP 提供标准化工具接入方式。

关系如下:

复制代码
Agent 负责思考和规划
MCP 负责提供工具和上下文
外部系统负责真实执行

可以理解为:

复制代码
Agent 是大脑
MCP 是神经接口
工具和系统是手脚

7. AI 网关

7.1 概念介绍

AI 网关是企业级大模型应用中的统一入口层。

它的作用类似传统微服务中的 API 网关,但面向的是大模型调用场景。

在企业中,可能会同时使用多个模型:

  • OpenAI;

  • Claude;

  • Gemini;

  • Qwen;

  • DeepSeek;

  • LLaMA;

  • 本地 Ollama 模型;

  • 私有化部署模型。

如果每个业务系统都直接对接不同模型,会导致管理混乱。

AI 网关就是为了解决统一接入、统一鉴权、统一限流、统一计费、统一审计的问题。

7.2 AI 网关核心能力

统一模型入口

业务系统只调用 AI 网关,由网关转发到不同模型。

复制代码
业务系统 → AI 网关 → OpenAI / Qwen / DeepSeek / 本地模型

鉴权认证

控制哪些用户、应用、租户可以调用哪些模型。

限流控制

防止模型调用过量,保护系统稳定性。

计费统计

统计不同用户、租户、应用的 token 消耗和费用。

日志审计

记录请求内容、响应内容、调用耗时、模型名称等。

模型路由

根据场景选择不同模型。

例如:

复制代码
简单问答 → 小模型
复杂推理 → 强模型
代码生成 → 代码模型
本地私密数据 → 私有化模型

敏感词与安全控制

对输入和输出进行安全过滤,防止敏感数据泄露。

降级与容灾

当某个模型不可用时,自动切换到备用模型。

7.3 与 LangChain / Agent / MCP 的关系

AI 网关通常位于模型调用入口处。

复制代码
LangChain / Agent / RAG 应用
          ↓
        AI 网关
          ↓
   多个大模型服务

它不直接负责智能推理,而是负责企业级治理。

可以理解为:

复制代码
LangChain 负责应用编排
Agent 负责任务执行
MCP 负责工具接入
AI 网关负责模型调用管理

8. Ollama

8.1 概念介绍

Ollama 是一个本地运行大模型的工具。

它可以让用户在本地电脑、服务器上快速运行开源大模型,例如 LLaMA、Qwen、DeepSeek、Mistral 等。

它的价值在于:

  • 部署简单;

  • 使用方便;

  • 支持本地运行;

  • 适合学习、开发、测试、私有化场景。

8.2 Ollama 的作用

Ollama 主要解决的是模型运行和部署问题。

例如你可以通过命令运行模型:

复制代码
ollama run qwen2.5

然后本地就可以和模型对话。

也可以作为服务接口给应用调用:

复制代码
应用系统 → Ollama API → 本地大模型

8.3 Ollama 的适用场景

本地学习

适合个人学习大模型、Prompt、RAG、Agent。

内网部署

企业不希望数据发到公网模型时,可以使用本地模型。

开发测试

在本地模拟大模型接口,降低开发成本。

私有知识库

结合 RAG 构建企业内部知识库问答。

8.4 与 AI 网关的关系

Ollama 是模型运行环境,AI 网关是模型管理入口。

关系如下:

复制代码
业务系统
  ↓
AI 网关
  ↓
Ollama
  ↓
本地大模型

也可以说:

复制代码
Ollama 负责把模型跑起来
AI 网关负责把模型管起来

9. 多 Agent

9.1 概念介绍

多 Agent 是指多个智能体协同完成复杂任务。

一个 Agent 可以完成单一任务,但复杂业务往往需要多个角色配合。

比如一个软件开发任务,可能需要:

  • 产品经理 Agent;

  • 架构师 Agent;

  • 后端开发 Agent;

  • 前端开发 Agent;

  • 测试 Agent;

  • 运维 Agent;

  • 文档 Agent。

每个 Agent 有自己的职责、工具和上下文,它们通过协作完成最终目标。

9.2 多 Agent 的典型结构

复制代码
用户目标
  ↓
总控 Agent / Manager Agent
  ↓
任务拆分
  ↓
多个专业 Agent 执行
  ↓
结果汇总
  ↓
最终输出

例如:

复制代码
用户:帮我分析一个数据平台连接 Hive 失败的问题。

总控 Agent:
1. 分配日志分析 Agent 查看异常;
2. 分配配置检查 Agent 检查 Kerberos 配置;
3. 分配知识库 Agent 查询历史问题;
4. 分配解决方案 Agent 汇总处理步骤;
5. 最终给用户输出根因分析。

9.3 多 Agent 的优势

专业分工

每个 Agent 专注一个领域,效果更稳定。

复杂任务拆解

适合长流程、多步骤任务。

并行处理

多个 Agent 可以同时处理不同子任务。

更接近真实团队协作

类似一个虚拟团队,不是单个模型独立完成所有事情。

9.4 多 Agent 的挑战

多 Agent 也不是越多越好,它会带来一些问题:

  • 调度复杂;

  • 成本增加;

  • 多个 Agent 之间可能互相冲突;

  • 上下文传递成本高;

  • 最终结果需要统一校验;

  • 对权限和工具管理要求更高。

所以多 Agent 更适合复杂任务,不适合简单问答。


二、九个概念之间的依赖关系

1. Transformer 是底层基础

复制代码
Transformer → LLM

Transformer 提供模型架构基础。

大语言模型基于 Transformer 训练得到语言理解、推理、生成能力。

没有 Transformer,就没有当前主流大模型能力。


2. Prompt 工程依赖 LLM

复制代码
Transformer → LLM → Prompt 工程

Prompt 工程是使用大模型的方法。

它不改变模型本身,而是通过更好的输入,让模型输出更好的结果。


3. LangChain 依赖 Prompt 和 LLM

复制代码
LLM + Prompt → LangChain

LangChain 把 Prompt、模型、工具、记忆、流程组织起来。

它让大模型应用从简单问答变成复杂业务系统。


4. RAG 依赖 LLM、Embedding、向量库和编排框架

复制代码
LLM
Prompt
Embedding
向量数据库
文档处理
LangChain
   ↓
RAG

RAG 是一种知识增强架构。

它依赖模型生成能力,也依赖外部知识检索能力。

LangChain 常用于实现 RAG,但不是必须。


5. Agent 依赖 LLM、Prompt、工具和编排框架

复制代码
LLM + Prompt + Tools + LangChain
              ↓
            Agent

Agent 比 RAG 更进一步。

RAG 主要是"查资料后回答",Agent 是"规划任务并执行动作"。


6. 多 Agent 依赖 Agent

复制代码
Agent → 多 Agent

多 Agent 是 Agent 的扩展。

单个 Agent 处理一个任务,多 Agent 通过角色分工处理复杂任务。


7. MCP 服务于 Agent 和多 Agent

复制代码
Agent / 多 Agent
       ↓
      MCP
       ↓
外部工具 / 数据源 / 业务系统

MCP 是工具接入协议。

Agent 需要调用工具,MCP 提供标准化工具能力。


8. AI 网关服务于企业级模型调用管理

复制代码
RAG / Agent / 多 Agent / 业务系统
              ↓
            AI 网关
              ↓
        多个大模型服务

AI 网关不负责具体推理逻辑,而是负责模型统一接入、鉴权、限流、计费、审计和路由。


9. Ollama 是模型部署运行方式

复制代码
Ollama → 本地大模型
AI 网关 → Ollama → 本地模型
LangChain / RAG / Agent → Ollama 模型接口

Ollama 负责让模型在本地运行。

它可以被 LangChain、RAG、Agent 或 AI 网关调用。


三、按照学习顺序推荐

对于 Java 开发工程师来说,建议按照下面顺序学习:

第一阶段:理解底层原理

复制代码
1. Transformer 原理
2. 大语言模型基本概念
3. Prompt 工程

目标是知道大模型为什么能理解文本、怎么更好地使用模型。


第二阶段:掌握应用开发

复制代码
4. LangChain
5. RAG

目标是能做出企业知识库、文档问答、项目助手这类应用。


第三阶段:掌握智能体能力

复制代码
6. Agent
7. 多 Agent

目标是让模型不仅能回答问题,还能调用工具、拆解任务、完成流程。


第四阶段:掌握企业级工程化

复制代码
8. MCP
9. AI 网关
10. Ollama

目标是理解如何把大模型能力接入企业系统,并进行统一管理和私有化部署。


四、整体关系图

复制代码
┌──────────────────────────┐
│      Transformer 原理      
└─────────────┬────────────┘
              ↓
┌──────────────────────────┐
│        大语言模型 LLM      
└─────────────┬────────────┘
              ↓
┌──────────────────────────┐
│        Prompt 工程         
└─────────────┬────────────┘
              ↓
┌──────────────────────────┐
│        LangChain 框架     
└─────────────┬────────────┘
              ↓
        ┌─────┴─────┐
        ↓           ↓
┌──────────────┐ ┌──────────────┐
│     RAG        │    Agent     
└──────┬───────┘ └──────┬───────┘
       ↓                ↓
┌──────────────┐ ┌──────────────┐
│ 企业知识库问答     多 Agent   
└──────────────┘ └──────┬───────┘
                         ↓
                  ┌──────────────┐
                  │     MCP       
                  └──────┬───────┘
                         ↓
                  ┌──────────────┐
                  │ 外部工具/系统 
                  └──────────────┘

同时:

┌──────────────────────────┐
│         AI 网关           
│  统一鉴权/限流/审计/路由   
└─────────────┬────────────┘
              ↓
┌──────────────────────────┐
│ OpenAI/Qwen/DeepSeek/Ollama
└──────────────────────────┘

┌──────────────────────────┐
│          Ollama            
│     本地模型运行与部署      
└──────────────────────────┘

五、用一句话总结每个概念

技术 一句话理解
Transformer 当前大语言模型的核心底层架构
Prompt 工程 通过设计提示词更好地使用大模型
LangChain 大模型应用开发和流程编排框架
RAG 让模型先查知识库再回答,减少幻觉
Agent 让模型具备任务规划和工具调用能力
MCP 让模型标准化连接外部工具和系统
AI 网关 企业统一管理模型调用的入口
Ollama 本地运行开源大模型的工具
多 Agent 多个智能体分工协作完成复杂任务

六、企业落地场景示例

假设企业要建设一个"数据平台智能助手",这些技术可以这样组合:

复制代码
1. 使用 Ollama 或私有大模型提供基础模型能力;
2. 通过 AI 网关统一管理模型调用;
3. 使用 LangChain 编排应用流程;
4. 使用 RAG 接入企业文档、接口文档、操作手册、日志案例;
5. 使用 Agent 分析用户问题并决定是否调用工具;
6. 使用 MCP 暴露元数据查询、数据源查询、项目查询、集群配置查询等工具;
7. 使用多 Agent 分别处理日志分析、SQL 分析、配置检查、知识库检索;
8. 最终输出问题原因、解决方案和操作步骤。

整体架构可以表示为:

复制代码
用户
 ↓
智能助手前端
 ↓
AI 网关
 ↓
LangChain 应用层
 ↓
Agent / 多 Agent 调度
 ↓
MCP 工具服务
 ↓
元数据平台 / 数据源 / 项目系统 / 日志系统 / 知识库
 ↓
大模型生成最终答案

七、最终总结

这九个概念可以分成四层:

第一层:模型基础层

复制代码
Transformer

解决"模型为什么能理解和生成语言"。

第二层:模型使用层

复制代码
Prompt 工程
Ollama

解决"如何使用模型、如何在本地运行模型"。

第三层:应用构建层

复制代码
LangChain
RAG
Agent
多 Agent

解决"如何把模型变成实际业务应用"。

第四层:企业工程层

复制代码
MCP
AI 网关

解决"如何让模型安全、稳定、标准化地接入企业系统"。

最终依赖关系可以概括为:

复制代码
Transformer 产生大模型能力;
Prompt 工程引导大模型能力;
LangChain 组织大模型应用;
RAG 增强模型知识;
Agent 增强模型执行能力;
多 Agent 增强复杂任务协作能力;
MCP 标准化工具和系统接入;
AI 网关统一管理模型服务;
Ollama 支撑本地模型运行和私有化部署。
相关推荐
superantwmhsxx1 小时前
GPT-5.5 科研助手实战:从假设提出到实验验证的全流程效果展示
大数据·人工智能·gpt
TG_yunshuguoji1 小时前
阿里云代理商:阿里云部署 WordPress的3 种方案
人工智能·阿里云·云计算·wordpress·ai智能体
jbk33111 小时前
画面重构,字幕配音原创,彻底改变视频指纹暗水印,剪映二次视频创作关键技术教程分享
人工智能·音视频·剪辑软件·剪映自动化软件
土星云SaturnCloud1 小时前
基于边缘计算的智慧停车场AI算力评估与SE110S-WA32部署方案
服务器·人工智能·ai·边缘计算
YangWeiminPHD1 小时前
单片机AI边缘计算发展之路:从M0的开局到三足鼎立的智能革命
人工智能·单片机·边缘计算
_橙时_1 小时前
【学习记录01】
学习·em
小陈phd1 小时前
多模态大模型学习笔记(四十五)——视觉推理(Visual Reasoning):从观察到逻辑的复杂认知链
人工智能·笔记·学习
旺仔Sec1 小时前
【AI数字营销新纪元】解锁流量新密码:CSDN“GEO工具”全网首测,让你的文章被大模型“记住”!
人工智能·学习·用户体验