AI 技术生态指南
整合 AI/ML/DL 核心概念、模型对比、基础设施与工具链的完整参考。

你是否也有这些困惑?
🤔 GPT、Claude、Gemini、DeepSeek、Qwen...20+ 模型到底怎么选?
🤔 MCP 和 A2A 这两个新协议有什么区别?谁提出的?要学哪个?
🤔 Agent 开发到底用什么框架?LangChain、LangGraph、CrewAI 还是 AutoGen?
🤔 本地跑大模型需要什么配置?A100 还是 RTX 4090 就够了?
🤔 Claude Code 的 Skill 是什么?和 MCP 有什么区别和联系?
这篇文章就是你的答案 ------ 一份 2026 年 AI 技术生态全景指南,从基础概念到选型速查,一篇覆盖。
目录
- [层级关系:AI → ML → DL → GenAI](#层级关系:AI → ML → DL → GenAI)
- 机器学习范式
- 模型架构演进
- 大语言模型对比
- 多模态模型
- [AI Agent 与工具链](#AI Agent 与工具链)
- 推理与部署基础设施
- [MCP / A2A 协议](#MCP / A2A 协议)
- [主流 SDK 与框架](#主流 SDK 与框架)
- [AI Skill 与 CLI 工具生态](#AI Skill 与 CLI 工具生态)
- [向量数据库与 RAG](#向量数据库与 RAG)
- 模型微调与定制
- 选型速查
1. 层级关系
复制代码
人工智能 (AI)
├── 机器学习 (ML)
│ ├── 监督学习 (Supervised)
│ ├── 无监督学习 (Unsupervised)
│ └── 强化学习 (RL)
├── 深度学习 (DL)
│ ├── CNN → 图像
│ ├── RNN / LSTM / GRU → 序列
│ ├── Transformer → 自注意力
│ ├── GAN / VAE / Diffusion → 生成
│ └── GNN → 图结构
└── 生成式 AI (GenAI)
├── LLM (GPT, Claude, Gemini, DeepSeek, LLaMA, Qwen)
├── 文生图 (Stable Diffusion, Midjourney, DALL·E, Flux)
├── 文生视频 (Sora, Runway, Kling, Veo)
├── 文生音乐 (Suno, Udio)
└── 代码生成 (Copilot, Cursor, Codex, Claude Code)
核心概念区分
| 概念 |
英文 |
一句话定义 |
| 人工智能 |
AI |
让机器模拟人类智能的总体学科 |
| 机器学习 |
ML |
从数据中学习规律,无需显式编程 |
| 深度学习 |
DL |
用深层神经网络进行表征学习 |
| 生成式 AI |
GenAI |
能够创造新内容(文本、图像、代码等)的 AI |
| 大语言模型 |
LLM |
基于 Transformer 的大规模文本生成模型 |
| 基础模型 |
Foundation Model |
在海量数据上预训练的通用模型,可适配下游任务 |
| 世界模型 |
World Model |
对物理世界的内部表征,用于预测和规划 |
2. 机器学习范式
监督学习
使用标注数据 (X, y) 学习从输入到输出的映射。
复制代码
算法:线性回归、逻辑回归、SVM、决策树、随机森林、XGBoost、LightGBM、CatBoost
任务:分类、回归
场景:风控评分、推荐系统、故障预测、房价预估
无监督学习
从无标签数据中发现隐藏结构。
复制代码
算法:K-Means、DBSCAN、PCA、t-SNE、UMAP、自编码器、Isolation Forest
任务:聚类、降维、异常检测
场景:用户分群、主题建模、数据可视化、欺诈检测
强化学习
智能体通过与环境交互,以奖励信号驱动策略优化。
复制代码
算法:Q-Learning、DQN、PPO、SAC、TRPO、GRPO
框架:RLHF(人类反馈强化学习)、RLAIF(AI 反馈强化学习)
场景:游戏 AI、机器人控制、LLM 对齐、自动驾驶
自监督学习
从数据自身构造监督信号,无需人工标注。
复制代码
代表:BERT(MLM)、GPT(自回归)、SimCLR、MoCo、MAE
核心思想:预测被遮盖部分 / 下一 token / 数据增强一致性
3. 模型架构演进
按时间线
复制代码
2014: Seq2Seq + Attention (机器翻译)
2017: Transformer (Attention Is All You Need)
2018: BERT (双向编码器) / GPT (单向自回归)
2019: GPT-2 / T5 / XLNet
2020: GPT-3 (175B, 上下文学习涌现)
2021: DALL·E / CLIP / Codex
2022: ChatGPT (GPT-3.5 + RLHF) / Stable Diffusion
2023: GPT-4 / Claude 2 / Gemini / LLaMA 2 / Mixtral (MoE)
2024: Claude 3 / GPT-4o / Gemini 2 / DeepSeek-V3 / Qwen 2.5
2025: Claude 4 / GPT-5 / DeepSeek-R1 / Gemini 2.5 / 推理模型爆发
2026: Claude Opus 4.6 / 多模态 Agent / A2A 协议 / MCP 生态
架构对比
| 架构 |
核心机制 |
代表模型 |
优势 |
劣势 |
| Encoder-Only |
双向注意力 |
BERT, RoBERTa |
理解任务 |
不能生成 |
| Decoder-Only |
因果注意力 |
GPT, LLaMA, Claude |
文本生成 |
无法做双向理解 |
| Encoder-Decoder |
交叉注意力 |
T5, BART |
翻译/摘要 |
效率低 |
| MoE |
稀疏专家混合 |
Mixtral, DeepSeek-V3 |
高容量低算力 |
训练复杂 |
| Mamba / SSM |
状态空间模型 |
Mamba, Mamba-2 |
长序列高效 |
生态小 |
| Diffusion |
逐步去噪 |
SD, DALL·E, Flux |
图像质量高 |
推理慢 |
| 混合模型 |
多架构融合 |
Gemini, GPT-4o |
多模态理解 |
复杂度高 |
4. 大语言模型对比
海外模型
| 模型 |
公司 |
定位 |
特点 |
| GPT-5 |
OpenAI |
通用旗舰 |
最强综合能力,多模态,长上下文 |
| GPT-4o |
OpenAI |
多模态 |
实时语音/视觉,性价比高 |
| o4 |
OpenAI |
推理 |
深度思维链,数学/编程极强 |
| Claude Opus 4.6 |
Anthropic |
安全推理 |
安全对齐,代码/分析/长文 |
| Claude Sonnet 4.6 |
Anthropic |
平衡 |
速度与能力平衡,Agent 友好 |
| Claude Haiku 4.5 |
Anthropic |
轻量 |
低延迟,高吞吐 |
| Gemini 2.5 Pro |
Google |
通用 |
超大上下文 (1M+),多模态 |
| Gemini 2.5 Flash |
Google |
轻量 |
高性价比,低延迟 |
| Llama 4 |
Meta |
开源 |
开源标杆,可私有化部署 |
| Grok 4 |
xAI |
实时 |
实时信息,X 平台集成 |
| Command A |
Cohere |
企业 |
RAG 和企业场景优化 |
国内模型
| 模型 |
公司 |
定位 |
特点 |
| DeepSeek-V4 |
深度求索 |
开源旗舰 |
MoE 架构,性价比极高 |
| DeepSeek-R1 |
深度求索 |
推理 |
开源推理标杆,思维链透明 |
| Qwen 2.5/3 |
阿里 |
开源全尺寸 |
0.5B-72B 全覆盖,多模态 |
| Kimi K2 |
月之暗面 |
通用 |
超长上下文,文档分析强 |
| GLM-5 |
智谱 |
通用 |
国产自主,多模态 |
| Hunyuan Turbo |
腾讯 |
通用 |
MoE,企业生态 |
| ERNIE 5 |
百度 |
企业 |
文心,企业级应用 |
| Yi |
零一万物 |
开源 |
MoE 架构,多语言 |
| MiniMax |
MiniMax |
多模态 |
语音和视觉突出 |
| Doubao |
字节跳动 |
应用 |
C 端应用,高性价比 |
推理模型对比
推理模型会在回答前进行深度思考(思维链),擅长数学、编程、逻辑推理。
| 模型 |
推理方式 |
思维链可见 |
适用场景 |
| o4 / o4-mini |
内部 CoT |
摘要 |
数学竞赛、复杂编程 |
| DeepSeek-R1 |
显式 CoT |
完整可见 |
代码、数学、逻辑 |
| Claude Opus 4.6 (thinking) |
显式 CoT |
完整可见 |
代码分析、架构设计 |
| QwQ |
显式 CoT |
完整可见 |
数学、编程 |
| Gemini 2.5 Pro (thinking) |
显式 CoT |
可见 |
复杂推理 |
选型建议
| 场景 |
推荐模型 |
理由 |
| 日常编程助手 |
Claude Sonnet 4.6 |
代码质量好,速度适中 |
| 复杂架构/长文分析 |
Claude Opus 4.6 |
思考深度强,200K 上下文 |
| 高吞吐/低延迟 |
Claude Haiku 4.5 / Gemini Flash |
成本低,响应快 |
| 多模态交互 |
GPT-4o / Gemini 2.5 Pro |
原生多模态 |
| 开源私有化 |
DeepSeek-V3 / Qwen 3 / Llama 4 |
可控、可定制 |
| 极致推理 |
o4 / DeepSeek-R1 |
数学/算法竞赛级 |
| RAG / 企业搜索 |
Command A / Claude |
RAG 优化 |
| 超长文档 |
Gemini 2.5 Pro / Kimi |
100 万+ tokens |
| 中文场景 |
Qwen 2.5 / DeepSeek-V3 / ERNIE |
中文优化 |
5. 多模态模型
文生图
| 模型 |
架构 |
特点 |
| Stable Diffusion 3.5 |
DiT + Flow |
开源,可本地运行 |
| Flux.1 |
DiT + Flow |
文本遵循度高,质量顶级 |
| DALL·E 4 |
Diffusion |
自然语言理解强 |
| Midjourney V7 |
未公开 |
艺术风格丰富 |
| Imagen 3 |
Diffusion |
照片级真实感 |
| Ideogram 3 |
--- |
文字渲染准确 |
文生视频
| 模型 |
公司 |
特点 |
| Sora 2 |
OpenAI |
物理世界模拟,最长 1 分钟 |
| Runway Gen-4 |
Runway |
专业影视级 |
| Veo 3 |
Google DeepMind |
高质量长视频 |
| Kling 2 |
快手 |
国产领先,1080p |
| Wan2.1 |
阿里 |
开源可本地 |
| Pika 2 |
Pika Labs |
创意特效 |
语音 & 音乐
| 类型 |
代表模型 |
特点 |
| TTS |
ElevenLabs, GPT-4o TTS, ChatTTS |
自然度接近人类 |
| STT |
Whisper v3, Gemini STT |
多语言,抗噪 |
| 实时语音 |
GPT-4o Realtime, Gemini Live |
低延迟对话 |
| 音乐生成 |
Suno v4, Udio v2 |
完整歌曲生成 |
| 音效 |
Stable Audio, AudioCraft |
文本到音效 |
视觉理解 (VLM)
| 模型 |
视觉能力 |
| GPT-4o / GPT-5 |
照片、图表、文档、视频 |
| Claude Opus/Sonnet 4.6 |
照片、PDF、图表、截图 |
| Gemini 2.5 Pro |
照片、视频、长视频分析 |
| Qwen-VL |
照片、文档、视频 |
| InternVL |
开源多尺度视觉 |
6. AI Agent 与工具链
Agent 架构
复制代码
用户指令
↓
LLM (规划 + 推理)
↓
Tool Use / Function Calling
├── 代码执行 (Python, Bash, SQL)
├── 网络搜索 (Tavily, Brave, Google)
├── 文件操作 (读/写/编辑)
├── 浏览器操作 (Playwright, Agent-Browser)
├── API 调用 (REST, GraphQL)
└── 数据库查询
↓
结果汇总 → 用户
Agent 框架对比
| 框架 |
语言 |
定位 |
特点 |
| Claude Code |
--- |
AI 编程 CLI |
原生工具链,Git/文件/终端 |
| Claude Agent SDK |
Python/TS |
Agent 开发 |
Anthropic 官方 Agent SDK |
| LangChain |
Python/TS |
通用 Agent |
生态最大,组件丰富 |
| LangGraph |
Python |
有状态 Agent |
图编排,复杂工作流 |
| CrewAI |
Python |
多 Agent |
角色分工,协作 |
| AutoGen |
Python |
多 Agent |
微软出品,对话式 |
| Agno |
Python |
轻量 Agent |
零样板,高性能 |
| Pydantic AI |
Python |
结构化 |
Pydantic 集成 |
| Vercel AI SDK |
TS |
Web Agent |
流式 UI,前端友好 |
| AWS Strands |
Python |
企业 Agent |
AWS 生态集成 |
Agent 设计模式
复制代码
1. ReAct (Reason + Act) --- 思考 → 行动 → 观察 → 循环
2. Plan-and-Execute --- 先制定计划,再逐步执行
3. Multi-Agent Collaboration --- 多个 Agent 分工协作
4. Tool Router --- 根据意图路由到不同工具
5. Reflexion --- 自我反思和纠错
6. Tree-of-Thought --- 多路径探索,选最优解
| 维度 |
Function Calling |
Tool Use |
| 代表 |
OpenAI, Google |
Anthropic |
| 定义方式 |
JSON Schema |
JSON Schema + description |
| 调用方式 |
API 参数传 tools |
API 参数传 tools |
| 批量调用 |
支持 parallel |
支持 parallel |
| 强制调用 |
tool_choice 参数 |
tool_choice 参数 |
| 本质 |
相同机制,不同命名 |
--- |
7. 推理与部署基础设施
GPU 选型
| GPU |
显存 |
定位 |
适合 |
| H100 / H200 |
80/141 GB |
训练旗舰 |
大模型训练 |
| B200 |
192 GB |
Blackwell 旗舰 |
万亿参数训练 |
| A100 |
40/80 GB |
上一代训练 |
性价比训练 |
| L40S |
48 GB |
推理优化 |
生产推理 |
| RTX 4090 |
24 GB |
消费级 |
小模型微调 |
| RTX 5090 |
32 GB |
消费级旗舰 |
本地推理 |
| A10 |
24 GB |
入门推理 |
低成本推理 |
| Ascend 910B |
64 GB |
国产替代 |
华为生态 |
推理引擎
| 引擎 |
特点 |
适用场景 |
| vLLM |
PagedAttention,高吞吐 |
生产级 API 推理 |
| TensorRT-LLM |
NVIDIA 优化,极速 |
英伟达 GPU |
| Ollama |
一键本地部署,极简 |
本地开发/测试 |
| llama.cpp |
CPU/GPU 混合,量化 |
消费级硬件 |
| SGLang |
结构化生成,RadixAttention |
复杂推理 |
| LMDeploy |
吞吐优化,TurboMind |
国产芯片 |
| MLX |
Apple Silicon 优化 |
Mac 本地推理 |
| TGI |
HuggingFace 官方 |
HuggingFace 生态 |
部署模式
复制代码
开发测试 生产推理 边缘部署
│ │ │
Ollama vLLM / TGI llama.cpp
llama.cpp Triton Server ONNX Runtime
MLX (Mac) Text Gen Inference MLC-LLM
8. MCP / A2A 协议
MCP (Model Context Protocol)
Anthropic 提出的开放协议,让 AI 模型与外部工具/数据安全交互。
复制代码
┌──────────────────────────────────┐
│ MCP Host (Claude) │
│ │
│ ┌──────────┐ ┌──────────┐ │
│ │ MCP Client│ │ MCP Client│ │
│ └─────┬─────┘ └─────┬─────┘ │
│ │ │ │
└────────┼───────────────┼──────────┘
│ │
┌────▼───┐ ┌────▼───┐
│ File │ │ DB │ ... MCP Servers
│ Server │ │ Server │
└────────┘ └────────┘
| 概念 |
角色 |
说明 |
| MCP Host |
消费者 |
AI 应用 (Claude Desktop, Claude Code) |
| MCP Client |
连接器 |
与 Server 建立 1:1 连接 |
| MCP Server |
提供者 |
暴露工具/资源/提示 |
| Transport |
传输层 |
stdio 或 HTTP+SSE |
A2A (Agent-to-Agent Protocol)
Google 提出的协议,让不同 Agent 之间协作通信。
| 维度 |
MCP |
A2A |
| 提出者 |
Anthropic |
Google |
| 目的 |
LLM ↔ 工具/数据 |
Agent ↔ Agent |
| 通信方向 |
Client-Server |
Peer-to-Peer |
| 类比 |
USB 连接外设 |
HTTP 连接服务 |
| 核心概念 |
Tools, Resources, Prompts |
Task, Agent Card |
| 传输 |
stdio, HTTP+SSE |
HTTP + JSON-RPC |
两者互补:MCP 连接工具,A2A 连接 Agent。实践中可以叠加使用。
9. 主流 SDK 与框架
LLM 调用 SDK
| SDK |
语言 |
覆盖范围 |
| OpenAI SDK |
Python/TS |
GPT 系列 |
| Anthropic SDK |
Python/TS |
Claude 系列 |
| Google GenAI SDK |
Python/TS |
Gemini 系列 |
| Vercel AI SDK |
TS |
多厂商统一接口 |
| LangChain |
Python/TS |
全链路 |
| LiteLLM |
Python |
多厂商代理/统一格式 |
| OpenRouter |
REST |
200+ 模型统一 API |
训练框架
| 框架 |
特点 |
| PyTorch |
研究首选,动态图 |
| JAX |
Google,函数式,TPU 友好 |
| Transformers |
HuggingFace,模型库最大 |
| DeepSpeed |
微软,ZeRO 并行 |
| Megatron-LM |
NVIDIA,张量并行 |
| Unsloth |
微调加速 2-5x |
| Axolotl |
微调脚手架 |
| LLaMA-Factory |
中文友好,Web UI 微调 |
ML 平台
| 平台 |
定位 |
| HuggingFace |
模型仓库 + 社区 |
| ModelScope |
国内模型仓库 |
| Weights & Biases |
实验追踪 |
| MLflow |
生命周期管理 |
| Ollama |
本地推理 |
| LM Studio |
桌面推理 |
10. AI Skill 与 CLI 工具生态
什么是 Skill?
Skill 是 AI Agent 的可插拔能力模块,相当于给 AI 安装"技能包"。每个 Skill 包含特定领域的指令、工具配置和最佳实践,让 AI 在特定任务上表现更专业。
复制代码
Skill = 专业指令 + 工具权限 + 最佳实践
| 维度 |
Skill |
MCP Server |
传统 Plugin |
| 本质 |
纯指令/配置包 |
外部服务进程 |
代码扩展 |
| 运行位置 |
AI 内部(注入 prompt) |
外部(独立进程) |
外部/内部 |
| 通信 |
无(静态注入) |
stdio / HTTP+SSE |
API 调用 |
| 复杂度 |
低(Markdown/YAML) |
中(需开发 Server) |
高(需编程) |
| 适用 |
领域知识、工作流指导 |
提供外部数据/能力 |
深度功能扩展 |
| 加载方式 |
对话时动态注入指令 |
生命周期内持续连接 |
安装后常驻 |
Skill 与 MCP 的关系:Skill 告诉 AI "怎么做",MCP 提供"用什么做"。Skill 可以声明依赖某个 MCP Server 的工具,两者协同工作。
Claude Code Skills
Claude Code 内置 Skill 系统,支持个人级和项目级技能。
复制代码
~/.claude/skills/ ← 个人技能(所有项目可用)
├── agent-browser/
│ ├── SKILL.md
│ └── _meta.json
└── my-custom-skill/
└── SKILL.md
.claude/skills/ ← 项目技能(仅当前项目)
└── project-conventions/
└── SKILL.md
SKILL.md 结构:
markdown
复制代码
---
name: agent-browser
description: Headless browser automation CLI optimized for AI agents
metadata: {"emoji":"🌐","requires":{"commands":["agent-browser"]}}
---
# Agent Browser Skill
## Core Workflow
[具体指令和工作流...]
## Key Commands
[命令参考...]
## Best Practices
[最佳实践...]
常用 Skill 类型:
| Skill 类型 |
示例 |
作用 |
| 浏览器自动化 |
agent-browser |
无头浏览器操作,页面快照/交互 |
| 代码审查 |
review-pr |
PR 审查工作流 |
| 提交辅助 |
commit |
规范化 Git 提交 |
| PDF 处理 |
pdf |
PDF 读取/生成 |
| 定时任务 |
loop |
循环执行指定操作 |
| 配置管理 |
update-config |
管理 Claude Code 配置 |
| 代码优化 |
simplify |
审查代码质量和复用性 |
| API 开发 |
claude-api |
Claude API/SDK 开发指导 |
AI CLI 工具矩阵
除了模型 API 和 IDE 插件,CLI 工具是 AI 开发者的第三大武器。
浏览器自动化
| 工具 |
特点 |
适用 |
| agent-browser |
无障碍树快照 + ref 定位,专为 AI Agent 设计 |
Agent 工作流 |
| Playwright |
多浏览器,全 API,生态最完善 |
E2E 测试/AI 浏览 |
| Puppeteer |
Chrome-only,轻量 |
爬虫/截图 |
| Selenium |
最成熟,多语言 |
传统自动化 |
agent-browser 核心命令速查:
bash
复制代码
# 安装
npm install -g agent-browser
agent-browser install # 下载 Chromium
# 导航与快照
agent-browser open https://example.com
agent-browser snapshot -i --json # -i 交互元素, --json JSON输出
# 元素交互 (ref-based, 确定性定位)
agent-browser click @e2
agent-browser fill @e3 "text"
agent-browser press "Enter"
# 状态获取
agent-browser get text @e1 --json
agent-browser get url --json
agent-browser get title --json
# 等待策略
agent-browser wait @e2
agent-browser wait --load networkidle
agent-browser wait --text "Welcome"
# 多会话隔离
agent-browser --session admin open site.com
agent-browser --session user open site.com
# 状态持久化(跳过登录)
agent-browser state save auth.json
agent-browser state load auth.json
agent-browser vs Playwright 选型:
| 场景 |
推荐 |
| AI Agent 自动化工作流 |
agent-browser (ref 定位更稳定) |
| 传统 E2E 测试 |
Playwright (生态成熟) |
| 需要截图/PDF 分析 |
二者均可 |
| 多步骤复杂交互 |
agent-browser (snapshot-ref 模式) |
| CI/CD 集成 |
Playwright |
AI 编程 CLI
| 工具 |
定位 |
特点 |
| Claude Code |
Anthropic 官方 |
深度代码理解,Agent 原生 |
| Gemini CLI |
Google 官方 |
免费额度,Google 生态 |
| GitHub Copilot CLI |
GitHub |
终端命令补全 |
| aider |
开源 |
Git 感知,多模型支持 |
| Codex CLI |
OpenAI |
轻量终端 Agent |
| Cursor CLI |
Cursor |
IDE 配套终端工具 |
模型管理 CLI
| 工具 |
用途 |
| Ollama CLI |
本地模型拉取/运行/管理 |
| huggingface-cli |
HF 模型下载/上传 |
| litellm |
多厂商标配代理 |
Skill 开发流程
复制代码
1. 确定场景 → 什么任务需要 Skill?
2. 编写 SKILL.md → 用 Markdown 写指令和工作流
3. 测试 → 在对话中验证 Skill 触发和行为
4. 迭代 → 优化 prompt 和工具配置
5. 分发 → 放到 ~/.claude/skills/ 或项目 .claude/skills/
11. 向量数据库与 RAG
RAG 架构 (检索增强生成)
复制代码
用户查询 → Embedding → 向量检索 → Top-K 文档 → LLM 生成 → 带引用的答案
向量数据库对比
| 数据库 |
类型 |
特点 |
| Pinecone |
云原生 |
全托管,零运维 |
| Weaviate |
开源 |
混合搜索,GraphQL |
| Milvus |
开源 |
分布式,十亿级 |
| Qdrant |
开源 |
Rust 实现,高性能 |
| Chroma |
开源 |
轻量,适合原型 |
| pgvector |
PG 插件 |
与 PostgreSQL 一体化 |
| Elasticsearch |
搜索+向量 |
全文+向量混合 |
| FAISS |
库 |
Meta 出品,纯向量 |
Chunking 策略
复制代码
固定大小 --- 简单,但可能切断语义
语义分块 --- 按段落/句子边界分割
递归分块 --- 按分隔符层级分割
Agent 分块 --- LLM 感知的智能分块
12. 模型微调与定制
微调方法
| 方法 |
简介 |
显存需求 |
| Full Fine-Tuning |
全参数更新 |
最高 (16× 模型大小) |
| LoRA |
低秩适配,旁路矩阵 |
极低 (7B 模型 ~6GB) |
| QLoRA |
LoRA + 4-bit 量化 |
最低 (7B 模型 ~4GB) |
| Adapter |
插入小型适配层 |
低 |
| Prefix Tuning |
学习虚拟 token |
低 |
| P-Tuning v2 |
深层提示微调 |
低 |
| DPO |
直接偏好优化 |
中(不需要奖励模型) |
Prompt 工程
复制代码
Zero-shot --- 不给示例
Few-shot --- 给 2-5 个示例
Chain-of-Thought --- "让我们一步步思考"
Tree-of-Thought --- 多路径探索
Self-Consistency --- 多次采样投票
ReAct --- 思考+行动交替
13. 选型速查
根据任务类型
| 任务 |
首选 |
备选 |
| 日常编程 |
Claude Sonnet 4.6 |
GPT-4o, DeepSeek-V4 |
| 深度代码分析 |
Claude Opus 4.6 |
o4, DeepSeek-R1 |
| 快速内容生成 |
GPT-4o / Claude Haiku |
Gemini Flash |
| 数学推理 |
o4 / DeepSeek-R1 |
Claude Opus 4.6 |
| 视频理解 |
Gemini 2.5 Pro |
GPT-4o |
| 图像生成 |
Flux.1 / Midjourney |
SD 3.5 |
| 视频生成 |
Veo 3 / Sora 2 |
Runway, Kling |
| 私有化部署 |
DeepSeek-V3 / Qwen 3 |
Llama 4 |
| 本地推理 |
Ollama + Qwen 2.5 (7B) |
Ollama + DeepSeek-R1 (7B) |
| Agent 开发 |
Claude Agent SDK |
LangGraph |
| RAG 系统 |
Claude + Chroma/Qdrant |
GPT + Pinecone |
| 企业搜索 |
Cohere Command A |
Claude + pgvector |
根据资源
复制代码
无 GPU,本地推理:
Ollama + Qwen 2.5 (0.5B~7B) / DeepSeek-R1 (1.5B~7B)
Apple Silicon → MLX + Qwen 2.5 (14B~32B)
单卡 24GB GPU (RTX 4090):
推理:7B~14B (fp16), 32B~72B (Q4)
微调:7B LoRA, 1.5B Full
单卡 80GB GPU (A100):
推理:7B~70B (fp16)
微调:70B LoRA, 7B Full
企业 API (无需 GPU):
Claude API / GPT API / Gemini API / DeepSeek API
结束语
如果这篇文章对你有帮助,欢迎:
- 👍 点赞收藏,方便下次查找
- 💬 评论区交流你的选型经验和看法
- 📌 分享给正在学习 AI 的同事朋友
下篇预告:DeepSeek-V4 vs Claude Opus 4.6 深度对比实测
附录
常用缩写
| 缩写 |
全称 |
| LLM |
Large Language Model |
| VLM |
Vision Language Model |
| MoE |
Mixture of Experts |
| RLHF |
Reinforcement Learning from Human Feedback |
| DPO |
Direct Preference Optimization |
| CoT |
Chain of Thought |
| RAG |
Retrieval-Augmented Generation |
| MCP |
Model Context Protocol |
| A2A |
Agent-to-Agent |
| SSD |
State Space Model |
| DiT |
Diffusion Transformer |
| LoRA |
Low-Rank Adaptation |
| GGUF |
GPT-Generated Unified Format (量化格式) |
关键时间节点
| 时间 |
事件 |
| 2012 |
AlexNet 赢得 ImageNet,深度学习爆发 |
| 2017 |
Transformer 架构提出 |
| 2020 |
GPT-3 展示涌现能力 |
| 2022.11 |
ChatGPT 发布,AI 进入大众视野 |
| 2023.03 |
GPT-4 发布,多模态 |
| 2024.05 |
GPT-4o 发布,原生多模态 |
| 2024.11 |
Anthropic 发布 MCP 协议 |
| 2025.01 |
DeepSeek-R1 开源推理模型震撼业界 |
| 2025.04 |
Google 发布 A2A 协议 |
| 2025.06 |
Claude Opus 4.6 / GPT-5 时代 |
| 2026.05 |
多模态 Agent + MCP/A2A + Skill 生态成熟 |
一图速览:2026 AI 技术生态全景
复制代码
┌─────────────────────────────────────────────┐
│ 2026 AI 技术生态全景 │
├─────────────────────────────────────────────┤
│ │
│ 模型层 GPT-5 · Claude Opus 4.6 │
│ Gemini 2.5 · DeepSeek-V4 │
│ Qwen 3 · Llama 4 · Kimi │
│ │
│ 协议层 MCP (Anthropic) · A2A (Google) │
│ │
│ Agent层 Claude Code · LangChain │
│ CrewAI · AutoGen · Agno │
│ Claude Agent SDK · LangGraph │
│ │
│ Skill层 agent-browser · commit │
│ review-pr · pdf · claude-api │
│ loop · simplify · update-config │
│ │
│ CLI工具 agent-browser · Ollama CLI │
│ aider · litellm │
│ │
│ 设施层 vLLM · Ollama · llama.cpp │
│ A100 · H100 · B200 · RTX 5090 │
│ │
│ 数据层 RAG · Chroma · Milvus · Qdrant │
│ Pinecone · pgvector · FAISS │
│ │
└─────────────────────────────────────────────┘