2026 AI 技术生态全景指南:从 LLM 到 Agent,从 MCP 到 A2A

AI 技术生态指南

整合 AI/ML/DL 核心概念、模型对比、基础设施与工具链的完整参考。


你是否也有这些困惑?

🤔 GPT、Claude、Gemini、DeepSeek、Qwen...20+ 模型到底怎么选?

🤔 MCP 和 A2A 这两个新协议有什么区别?谁提出的?要学哪个?

🤔 Agent 开发到底用什么框架?LangChain、LangGraph、CrewAI 还是 AutoGen?

🤔 本地跑大模型需要什么配置?A100 还是 RTX 4090 就够了?

🤔 Claude Code 的 Skill 是什么?和 MCP 有什么区别和联系?

这篇文章就是你的答案 ------ 一份 2026 年 AI 技术生态全景指南,从基础概念到选型速查,一篇覆盖。


目录

  1. [层级关系:AI → ML → DL → GenAI](#层级关系:AI → ML → DL → GenAI)
  2. 机器学习范式
  3. 模型架构演进
  4. 大语言模型对比
  5. 多模态模型
  6. [AI Agent 与工具链](#AI Agent 与工具链)
  7. 推理与部署基础设施
  8. [MCP / A2A 协议](#MCP / A2A 协议)
  9. [主流 SDK 与框架](#主流 SDK 与框架)
  10. [AI Skill 与 CLI 工具生态](#AI Skill 与 CLI 工具生态)
  11. [向量数据库与 RAG](#向量数据库与 RAG)
  12. 模型微调与定制
  13. 选型速查

1. 层级关系

复制代码
人工智能 (AI)
├── 机器学习 (ML)
│   ├── 监督学习 (Supervised)
│   ├── 无监督学习 (Unsupervised)
│   └── 强化学习 (RL)
├── 深度学习 (DL)
│   ├── CNN   → 图像
│   ├── RNN / LSTM / GRU → 序列
│   ├── Transformer → 自注意力
│   ├── GAN / VAE / Diffusion → 生成
│   └── GNN  → 图结构
└── 生成式 AI (GenAI)
    ├── LLM (GPT, Claude, Gemini, DeepSeek, LLaMA, Qwen)
    ├── 文生图 (Stable Diffusion, Midjourney, DALL·E, Flux)
    ├── 文生视频 (Sora, Runway, Kling, Veo)
    ├── 文生音乐 (Suno, Udio)
    └── 代码生成 (Copilot, Cursor, Codex, Claude Code)

核心概念区分

概念 英文 一句话定义
人工智能 AI 让机器模拟人类智能的总体学科
机器学习 ML 从数据中学习规律,无需显式编程
深度学习 DL 用深层神经网络进行表征学习
生成式 AI GenAI 能够创造新内容(文本、图像、代码等)的 AI
大语言模型 LLM 基于 Transformer 的大规模文本生成模型
基础模型 Foundation Model 在海量数据上预训练的通用模型,可适配下游任务
世界模型 World Model 对物理世界的内部表征,用于预测和规划

2. 机器学习范式

监督学习

使用标注数据 (X, y) 学习从输入到输出的映射。

复制代码
算法:线性回归、逻辑回归、SVM、决策树、随机森林、XGBoost、LightGBM、CatBoost
任务:分类、回归
场景:风控评分、推荐系统、故障预测、房价预估

无监督学习

从无标签数据中发现隐藏结构。

复制代码
算法:K-Means、DBSCAN、PCA、t-SNE、UMAP、自编码器、Isolation Forest
任务:聚类、降维、异常检测
场景:用户分群、主题建模、数据可视化、欺诈检测

强化学习

智能体通过与环境交互,以奖励信号驱动策略优化。

复制代码
算法:Q-Learning、DQN、PPO、SAC、TRPO、GRPO
框架:RLHF(人类反馈强化学习)、RLAIF(AI 反馈强化学习)
场景:游戏 AI、机器人控制、LLM 对齐、自动驾驶

自监督学习

从数据自身构造监督信号,无需人工标注。

复制代码
代表:BERT(MLM)、GPT(自回归)、SimCLR、MoCo、MAE
核心思想:预测被遮盖部分 / 下一 token / 数据增强一致性

3. 模型架构演进

按时间线

复制代码
2014: Seq2Seq + Attention (机器翻译)
2017: Transformer (Attention Is All You Need)
2018: BERT (双向编码器) / GPT (单向自回归)
2019: GPT-2 / T5 / XLNet
2020: GPT-3 (175B, 上下文学习涌现)
2021: DALL·E / CLIP / Codex
2022: ChatGPT (GPT-3.5 + RLHF) / Stable Diffusion
2023: GPT-4 / Claude 2 / Gemini / LLaMA 2 / Mixtral (MoE)
2024: Claude 3 / GPT-4o / Gemini 2 / DeepSeek-V3 / Qwen 2.5
2025: Claude 4 / GPT-5 / DeepSeek-R1 / Gemini 2.5 / 推理模型爆发
2026: Claude Opus 4.6 / 多模态 Agent / A2A 协议 / MCP 生态

架构对比

架构 核心机制 代表模型 优势 劣势
Encoder-Only 双向注意力 BERT, RoBERTa 理解任务 不能生成
Decoder-Only 因果注意力 GPT, LLaMA, Claude 文本生成 无法做双向理解
Encoder-Decoder 交叉注意力 T5, BART 翻译/摘要 效率低
MoE 稀疏专家混合 Mixtral, DeepSeek-V3 高容量低算力 训练复杂
Mamba / SSM 状态空间模型 Mamba, Mamba-2 长序列高效 生态小
Diffusion 逐步去噪 SD, DALL·E, Flux 图像质量高 推理慢
混合模型 多架构融合 Gemini, GPT-4o 多模态理解 复杂度高

4. 大语言模型对比

海外模型

模型 公司 定位 特点
GPT-5 OpenAI 通用旗舰 最强综合能力,多模态,长上下文
GPT-4o OpenAI 多模态 实时语音/视觉,性价比高
o4 OpenAI 推理 深度思维链,数学/编程极强
Claude Opus 4.6 Anthropic 安全推理 安全对齐,代码/分析/长文
Claude Sonnet 4.6 Anthropic 平衡 速度与能力平衡,Agent 友好
Claude Haiku 4.5 Anthropic 轻量 低延迟,高吞吐
Gemini 2.5 Pro Google 通用 超大上下文 (1M+),多模态
Gemini 2.5 Flash Google 轻量 高性价比,低延迟
Llama 4 Meta 开源 开源标杆,可私有化部署
Grok 4 xAI 实时 实时信息,X 平台集成
Command A Cohere 企业 RAG 和企业场景优化

国内模型

模型 公司 定位 特点
DeepSeek-V4 深度求索 开源旗舰 MoE 架构,性价比极高
DeepSeek-R1 深度求索 推理 开源推理标杆,思维链透明
Qwen 2.5/3 阿里 开源全尺寸 0.5B-72B 全覆盖,多模态
Kimi K2 月之暗面 通用 超长上下文,文档分析强
GLM-5 智谱 通用 国产自主,多模态
Hunyuan Turbo 腾讯 通用 MoE,企业生态
ERNIE 5 百度 企业 文心,企业级应用
Yi 零一万物 开源 MoE 架构,多语言
MiniMax MiniMax 多模态 语音和视觉突出
Doubao 字节跳动 应用 C 端应用,高性价比

推理模型对比

推理模型会在回答前进行深度思考(思维链),擅长数学、编程、逻辑推理。

模型 推理方式 思维链可见 适用场景
o4 / o4-mini 内部 CoT 摘要 数学竞赛、复杂编程
DeepSeek-R1 显式 CoT 完整可见 代码、数学、逻辑
Claude Opus 4.6 (thinking) 显式 CoT 完整可见 代码分析、架构设计
QwQ 显式 CoT 完整可见 数学、编程
Gemini 2.5 Pro (thinking) 显式 CoT 可见 复杂推理

选型建议

场景 推荐模型 理由
日常编程助手 Claude Sonnet 4.6 代码质量好,速度适中
复杂架构/长文分析 Claude Opus 4.6 思考深度强,200K 上下文
高吞吐/低延迟 Claude Haiku 4.5 / Gemini Flash 成本低,响应快
多模态交互 GPT-4o / Gemini 2.5 Pro 原生多模态
开源私有化 DeepSeek-V3 / Qwen 3 / Llama 4 可控、可定制
极致推理 o4 / DeepSeek-R1 数学/算法竞赛级
RAG / 企业搜索 Command A / Claude RAG 优化
超长文档 Gemini 2.5 Pro / Kimi 100 万+ tokens
中文场景 Qwen 2.5 / DeepSeek-V3 / ERNIE 中文优化

5. 多模态模型

文生图

模型 架构 特点
Stable Diffusion 3.5 DiT + Flow 开源,可本地运行
Flux.1 DiT + Flow 文本遵循度高,质量顶级
DALL·E 4 Diffusion 自然语言理解强
Midjourney V7 未公开 艺术风格丰富
Imagen 3 Diffusion 照片级真实感
Ideogram 3 --- 文字渲染准确

文生视频

模型 公司 特点
Sora 2 OpenAI 物理世界模拟,最长 1 分钟
Runway Gen-4 Runway 专业影视级
Veo 3 Google DeepMind 高质量长视频
Kling 2 快手 国产领先,1080p
Wan2.1 阿里 开源可本地
Pika 2 Pika Labs 创意特效

语音 & 音乐

类型 代表模型 特点
TTS ElevenLabs, GPT-4o TTS, ChatTTS 自然度接近人类
STT Whisper v3, Gemini STT 多语言,抗噪
实时语音 GPT-4o Realtime, Gemini Live 低延迟对话
音乐生成 Suno v4, Udio v2 完整歌曲生成
音效 Stable Audio, AudioCraft 文本到音效

视觉理解 (VLM)

模型 视觉能力
GPT-4o / GPT-5 照片、图表、文档、视频
Claude Opus/Sonnet 4.6 照片、PDF、图表、截图
Gemini 2.5 Pro 照片、视频、长视频分析
Qwen-VL 照片、文档、视频
InternVL 开源多尺度视觉

6. AI Agent 与工具链

Agent 架构

复制代码
用户指令
    ↓
LLM (规划 + 推理)
    ↓
Tool Use / Function Calling
    ├── 代码执行 (Python, Bash, SQL)
    ├── 网络搜索 (Tavily, Brave, Google)
    ├── 文件操作 (读/写/编辑)
    ├── 浏览器操作 (Playwright, Agent-Browser)
    ├── API 调用 (REST, GraphQL)
    └── 数据库查询
    ↓
结果汇总 → 用户

Agent 框架对比

框架 语言 定位 特点
Claude Code --- AI 编程 CLI 原生工具链,Git/文件/终端
Claude Agent SDK Python/TS Agent 开发 Anthropic 官方 Agent SDK
LangChain Python/TS 通用 Agent 生态最大,组件丰富
LangGraph Python 有状态 Agent 图编排,复杂工作流
CrewAI Python 多 Agent 角色分工,协作
AutoGen Python 多 Agent 微软出品,对话式
Agno Python 轻量 Agent 零样板,高性能
Pydantic AI Python 结构化 Pydantic 集成
Vercel AI SDK TS Web Agent 流式 UI,前端友好
AWS Strands Python 企业 Agent AWS 生态集成

Agent 设计模式

复制代码
1. ReAct (Reason + Act)     --- 思考 → 行动 → 观察 → 循环
2. Plan-and-Execute          --- 先制定计划,再逐步执行
3. Multi-Agent Collaboration --- 多个 Agent 分工协作
4. Tool Router               --- 根据意图路由到不同工具
5. Reflexion                 --- 自我反思和纠错
6. Tree-of-Thought           --- 多路径探索,选最优解

Function Calling vs Tool Use

维度 Function Calling Tool Use
代表 OpenAI, Google Anthropic
定义方式 JSON Schema JSON Schema + description
调用方式 API 参数传 tools API 参数传 tools
批量调用 支持 parallel 支持 parallel
强制调用 tool_choice 参数 tool_choice 参数
本质 相同机制,不同命名 ---

7. 推理与部署基础设施

GPU 选型

GPU 显存 定位 适合
H100 / H200 80/141 GB 训练旗舰 大模型训练
B200 192 GB Blackwell 旗舰 万亿参数训练
A100 40/80 GB 上一代训练 性价比训练
L40S 48 GB 推理优化 生产推理
RTX 4090 24 GB 消费级 小模型微调
RTX 5090 32 GB 消费级旗舰 本地推理
A10 24 GB 入门推理 低成本推理
Ascend 910B 64 GB 国产替代 华为生态

推理引擎

引擎 特点 适用场景
vLLM PagedAttention,高吞吐 生产级 API 推理
TensorRT-LLM NVIDIA 优化,极速 英伟达 GPU
Ollama 一键本地部署,极简 本地开发/测试
llama.cpp CPU/GPU 混合,量化 消费级硬件
SGLang 结构化生成,RadixAttention 复杂推理
LMDeploy 吞吐优化,TurboMind 国产芯片
MLX Apple Silicon 优化 Mac 本地推理
TGI HuggingFace 官方 HuggingFace 生态

部署模式

复制代码
开发测试         生产推理              边缘部署
   │                │                   │
Ollama          vLLM / TGI          llama.cpp
llama.cpp       Triton Server       ONNX Runtime
MLX (Mac)       Text Gen Inference  MLC-LLM

8. MCP / A2A 协议

MCP (Model Context Protocol)

Anthropic 提出的开放协议,让 AI 模型与外部工具/数据安全交互。

复制代码
┌──────────────────────────────────┐
│         MCP Host (Claude)        │
│                                  │
│  ┌──────────┐  ┌──────────┐     │
│  │ MCP Client│  │ MCP Client│    │
│  └─────┬─────┘  └─────┬─────┘    │
│        │               │          │
└────────┼───────────────┼──────────┘
         │               │
    ┌────▼───┐      ┌────▼───┐
    │  File  │      │  DB    │  ... MCP Servers
    │ Server │      │ Server │
    └────────┘      └────────┘
概念 角色 说明
MCP Host 消费者 AI 应用 (Claude Desktop, Claude Code)
MCP Client 连接器 与 Server 建立 1:1 连接
MCP Server 提供者 暴露工具/资源/提示
Transport 传输层 stdio 或 HTTP+SSE

A2A (Agent-to-Agent Protocol)

Google 提出的协议,让不同 Agent 之间协作通信。

维度 MCP A2A
提出者 Anthropic Google
目的 LLM ↔ 工具/数据 Agent ↔ Agent
通信方向 Client-Server Peer-to-Peer
类比 USB 连接外设 HTTP 连接服务
核心概念 Tools, Resources, Prompts Task, Agent Card
传输 stdio, HTTP+SSE HTTP + JSON-RPC

两者互补:MCP 连接工具,A2A 连接 Agent。实践中可以叠加使用。


9. 主流 SDK 与框架

LLM 调用 SDK

SDK 语言 覆盖范围
OpenAI SDK Python/TS GPT 系列
Anthropic SDK Python/TS Claude 系列
Google GenAI SDK Python/TS Gemini 系列
Vercel AI SDK TS 多厂商统一接口
LangChain Python/TS 全链路
LiteLLM Python 多厂商代理/统一格式
OpenRouter REST 200+ 模型统一 API

训练框架

框架 特点
PyTorch 研究首选,动态图
JAX Google,函数式,TPU 友好
Transformers HuggingFace,模型库最大
DeepSpeed 微软,ZeRO 并行
Megatron-LM NVIDIA,张量并行
Unsloth 微调加速 2-5x
Axolotl 微调脚手架
LLaMA-Factory 中文友好,Web UI 微调

ML 平台

平台 定位
HuggingFace 模型仓库 + 社区
ModelScope 国内模型仓库
Weights & Biases 实验追踪
MLflow 生命周期管理
Ollama 本地推理
LM Studio 桌面推理

10. AI Skill 与 CLI 工具生态

什么是 Skill?

Skill 是 AI Agent 的可插拔能力模块,相当于给 AI 安装"技能包"。每个 Skill 包含特定领域的指令、工具配置和最佳实践,让 AI 在特定任务上表现更专业。

复制代码
Skill = 专业指令 + 工具权限 + 最佳实践
维度 Skill MCP Server 传统 Plugin
本质 纯指令/配置包 外部服务进程 代码扩展
运行位置 AI 内部(注入 prompt) 外部(独立进程) 外部/内部
通信 无(静态注入) stdio / HTTP+SSE API 调用
复杂度 低(Markdown/YAML) 中(需开发 Server) 高(需编程)
适用 领域知识、工作流指导 提供外部数据/能力 深度功能扩展
加载方式 对话时动态注入指令 生命周期内持续连接 安装后常驻

Skill 与 MCP 的关系:Skill 告诉 AI "怎么做",MCP 提供"用什么做"。Skill 可以声明依赖某个 MCP Server 的工具,两者协同工作。

Claude Code Skills

Claude Code 内置 Skill 系统,支持个人级和项目级技能。

复制代码
~/.claude/skills/          ← 个人技能(所有项目可用)
├── agent-browser/
│   ├── SKILL.md
│   └── _meta.json
└── my-custom-skill/
    └── SKILL.md

.claude/skills/             ← 项目技能(仅当前项目)
└── project-conventions/
    └── SKILL.md

SKILL.md 结构:

markdown 复制代码
---
name: agent-browser
description: Headless browser automation CLI optimized for AI agents
metadata: {"emoji":"🌐","requires":{"commands":["agent-browser"]}}
---

# Agent Browser Skill

## Core Workflow
[具体指令和工作流...]

## Key Commands
[命令参考...]

## Best Practices
[最佳实践...]

常用 Skill 类型:

Skill 类型 示例 作用
浏览器自动化 agent-browser 无头浏览器操作,页面快照/交互
代码审查 review-pr PR 审查工作流
提交辅助 commit 规范化 Git 提交
PDF 处理 pdf PDF 读取/生成
定时任务 loop 循环执行指定操作
配置管理 update-config 管理 Claude Code 配置
代码优化 simplify 审查代码质量和复用性
API 开发 claude-api Claude API/SDK 开发指导

AI CLI 工具矩阵

除了模型 API 和 IDE 插件,CLI 工具是 AI 开发者的第三大武器。

浏览器自动化
工具 特点 适用
agent-browser 无障碍树快照 + ref 定位,专为 AI Agent 设计 Agent 工作流
Playwright 多浏览器,全 API,生态最完善 E2E 测试/AI 浏览
Puppeteer Chrome-only,轻量 爬虫/截图
Selenium 最成熟,多语言 传统自动化

agent-browser 核心命令速查:

bash 复制代码
# 安装
npm install -g agent-browser
agent-browser install          # 下载 Chromium

# 导航与快照
agent-browser open https://example.com
agent-browser snapshot -i --json          # -i 交互元素, --json JSON输出

# 元素交互 (ref-based, 确定性定位)
agent-browser click @e2
agent-browser fill @e3 "text"
agent-browser press "Enter"

# 状态获取
agent-browser get text @e1 --json
agent-browser get url --json
agent-browser get title --json

# 等待策略
agent-browser wait @e2
agent-browser wait --load networkidle
agent-browser wait --text "Welcome"

# 多会话隔离
agent-browser --session admin open site.com
agent-browser --session user open site.com

# 状态持久化(跳过登录)
agent-browser state save auth.json
agent-browser state load auth.json

agent-browser vs Playwright 选型:

场景 推荐
AI Agent 自动化工作流 agent-browser (ref 定位更稳定)
传统 E2E 测试 Playwright (生态成熟)
需要截图/PDF 分析 二者均可
多步骤复杂交互 agent-browser (snapshot-ref 模式)
CI/CD 集成 Playwright
AI 编程 CLI
工具 定位 特点
Claude Code Anthropic 官方 深度代码理解,Agent 原生
Gemini CLI Google 官方 免费额度,Google 生态
GitHub Copilot CLI GitHub 终端命令补全
aider 开源 Git 感知,多模型支持
Codex CLI OpenAI 轻量终端 Agent
Cursor CLI Cursor IDE 配套终端工具
模型管理 CLI
工具 用途
Ollama CLI 本地模型拉取/运行/管理
huggingface-cli HF 模型下载/上传
litellm 多厂商标配代理

Skill 开发流程

复制代码
1. 确定场景 → 什么任务需要 Skill?
2. 编写 SKILL.md → 用 Markdown 写指令和工作流
3. 测试 → 在对话中验证 Skill 触发和行为
4. 迭代 → 优化 prompt 和工具配置
5. 分发 → 放到 ~/.claude/skills/ 或项目 .claude/skills/

11. 向量数据库与 RAG

RAG 架构 (检索增强生成)

复制代码
用户查询 → Embedding → 向量检索 → Top-K 文档 → LLM 生成 → 带引用的答案

向量数据库对比

数据库 类型 特点
Pinecone 云原生 全托管,零运维
Weaviate 开源 混合搜索,GraphQL
Milvus 开源 分布式,十亿级
Qdrant 开源 Rust 实现,高性能
Chroma 开源 轻量,适合原型
pgvector PG 插件 与 PostgreSQL 一体化
Elasticsearch 搜索+向量 全文+向量混合
FAISS Meta 出品,纯向量

Chunking 策略

复制代码
固定大小   --- 简单,但可能切断语义
语义分块   --- 按段落/句子边界分割
递归分块   --- 按分隔符层级分割
Agent 分块  --- LLM 感知的智能分块

12. 模型微调与定制

微调方法

方法 简介 显存需求
Full Fine-Tuning 全参数更新 最高 (16× 模型大小)
LoRA 低秩适配,旁路矩阵 极低 (7B 模型 ~6GB)
QLoRA LoRA + 4-bit 量化 最低 (7B 模型 ~4GB)
Adapter 插入小型适配层
Prefix Tuning 学习虚拟 token
P-Tuning v2 深层提示微调
DPO 直接偏好优化 中(不需要奖励模型)

Prompt 工程

复制代码
Zero-shot       --- 不给示例
Few-shot        --- 给 2-5 个示例
Chain-of-Thought --- "让我们一步步思考"
Tree-of-Thought  --- 多路径探索
Self-Consistency --- 多次采样投票
ReAct            --- 思考+行动交替

13. 选型速查

根据任务类型

任务 首选 备选
日常编程 Claude Sonnet 4.6 GPT-4o, DeepSeek-V4
深度代码分析 Claude Opus 4.6 o4, DeepSeek-R1
快速内容生成 GPT-4o / Claude Haiku Gemini Flash
数学推理 o4 / DeepSeek-R1 Claude Opus 4.6
视频理解 Gemini 2.5 Pro GPT-4o
图像生成 Flux.1 / Midjourney SD 3.5
视频生成 Veo 3 / Sora 2 Runway, Kling
私有化部署 DeepSeek-V3 / Qwen 3 Llama 4
本地推理 Ollama + Qwen 2.5 (7B) Ollama + DeepSeek-R1 (7B)
Agent 开发 Claude Agent SDK LangGraph
RAG 系统 Claude + Chroma/Qdrant GPT + Pinecone
企业搜索 Cohere Command A Claude + pgvector

根据资源

复制代码
无 GPU,本地推理:
  Ollama + Qwen 2.5 (0.5B~7B) / DeepSeek-R1 (1.5B~7B)
  Apple Silicon → MLX + Qwen 2.5 (14B~32B)

单卡 24GB GPU (RTX 4090):
  推理:7B~14B (fp16), 32B~72B (Q4)
  微调:7B LoRA, 1.5B Full

单卡 80GB GPU (A100):
  推理:7B~70B (fp16)  
  微调:70B LoRA, 7B Full

企业 API (无需 GPU):
  Claude API / GPT API / Gemini API / DeepSeek API

结束语

如果这篇文章对你有帮助,欢迎:

  • 👍 点赞收藏,方便下次查找
  • 💬 评论区交流你的选型经验和看法
  • 📌 分享给正在学习 AI 的同事朋友

下篇预告:DeepSeek-V4 vs Claude Opus 4.6 深度对比实测


附录

常用缩写

缩写 全称
LLM Large Language Model
VLM Vision Language Model
MoE Mixture of Experts
RLHF Reinforcement Learning from Human Feedback
DPO Direct Preference Optimization
CoT Chain of Thought
RAG Retrieval-Augmented Generation
MCP Model Context Protocol
A2A Agent-to-Agent
SSD State Space Model
DiT Diffusion Transformer
LoRA Low-Rank Adaptation
GGUF GPT-Generated Unified Format (量化格式)

关键时间节点

时间 事件
2012 AlexNet 赢得 ImageNet,深度学习爆发
2017 Transformer 架构提出
2020 GPT-3 展示涌现能力
2022.11 ChatGPT 发布,AI 进入大众视野
2023.03 GPT-4 发布,多模态
2024.05 GPT-4o 发布,原生多模态
2024.11 Anthropic 发布 MCP 协议
2025.01 DeepSeek-R1 开源推理模型震撼业界
2025.04 Google 发布 A2A 协议
2025.06 Claude Opus 4.6 / GPT-5 时代
2026.05 多模态 Agent + MCP/A2A + Skill 生态成熟

一图速览:2026 AI 技术生态全景

复制代码
        ┌─────────────────────────────────────────────┐
        │         2026 AI 技术生态全景               │
        ├─────────────────────────────────────────────┤
        │                                             │
        │  模型层    GPT-5 · Claude Opus 4.6          │
        │           Gemini 2.5 · DeepSeek-V4          │
        │           Qwen 3 · Llama 4 · Kimi           │
        │                                             │
        │  协议层    MCP (Anthropic) · A2A (Google)   │
        │                                             │
        │  Agent层   Claude Code · LangChain          │
        │           CrewAI · AutoGen · Agno           │
        │           Claude Agent SDK · LangGraph      │
        │                                             │
        │  Skill层   agent-browser · commit          │
        │           review-pr · pdf · claude-api      │
        │           loop · simplify · update-config   │
        │                                             │
        │  CLI工具   agent-browser · Ollama CLI       │
        │           aider · litellm                   │
        │                                             │
        │  设施层    vLLM · Ollama · llama.cpp        │
        │           A100 · H100 · B200 · RTX 5090    │
        │                                             │
        │  数据层    RAG · Chroma · Milvus · Qdrant   │
        │           Pinecone · pgvector · FAISS       │
        │                                             │
        └─────────────────────────────────────────────┘
相关推荐
AI算法沐枫3 小时前
大模型 | 大模型之机器学习基本理论
人工智能·python·神经网络·学习·算法·机器学习·计算机视觉
li星野3 小时前
Transformer 核心模块详解:多头注意力、前馈网络与词嵌入
人工智能·深度学习·transformer
灰灰勇闯IT3 小时前
catlass:昇腾NPU上的算子模板库
人工智能
桜吹雪3 小时前
所有智能体架构(2):ReAct(推理 + 行动)
人工智能
埃菲尔铁塔_CV算法3 小时前
YOLO11 与传统纹理特征融合目标检测 完整实现教程
人工智能·神经网络·yolo·计算机视觉
快乐的哈士奇4 小时前
LangFuse 自托管实战:选型理由、Docker 部署与常用配置全解析
运维·人工智能·docker·容器
数智化管理手记4 小时前
精益生产3步实操,让现场从混乱变标杆
大数据·运维·网络·人工智能·精益工程
Karl_wei4 小时前
AI Harness 简易版建设
openai·agent·ai编程
百度Geek说4 小时前
PRD → Goal → After-Goal:AI 主导全流程研发实践
人工智能