从 Prompt 到系统工程:AI / Agent 系统架构设计要点

过去一年,大模型从 Demo 阶段 走向 生产系统

很多团队已经发现:真正困难的不是"接入一个模型",而是 如何把大模型稳定接入业务系统

一个可用的 AI / Agent 系统,本质上是一个新的 软件架构层

大模型只是推理引擎,系统工程才是核心。

在实践中,一个 AI Agent 系统通常需要解决以下核心问题:

  • 上下文怎么管理?
  • 长对话怎么做记忆?
  • 知识库怎么更新?
  • 检索怎么避免召回垃圾?
  • 模型输出怎么校验?
  • 失败了怎么重试?
  • 怎么做日志?
  • 怎么做权限?

以及更关键的工程问题:

  • 能不能把大模型接入业务系统?
  • 能不能自动调用工具?
  • 能不能跑流程、做决策、出结果?
  • 能不能 稳定交付

这篇文章从 系统架构角度,梳理 AI / Agent 系统落地的关键设计。


一、AI Agent 系统的整体架构

一个生产级 AI Agent 系统通常包含五层:

复制代码
            ┌─────────────────────┐
            │      Application     │
            │   (业务应用 / Agent) │
            └─────────▲───────────┘
                      │
            ┌─────────┴───────────┐
            │     Orchestration    │
            │ (任务规划 / 工具调用) │
            └─────────▲───────────┘
                      │
            ┌─────────┴───────────┐
            │     LLM Runtime      │
            │ (Prompt / Context)   │
            └─────────▲───────────┘
                      │
            ┌─────────┴───────────┐
            │    Knowledge Layer   │
            │   (RAG / Memory)     │
            └─────────▲───────────┘
                      │
            ┌─────────┴───────────┐
            │  Infrastructure      │
            │ 日志 / 权限 / 监控    │
            └─────────────────────┘

核心思想:

LLM 不直接面对业务系统,而是通过一个 Agent Runtime 层。

这个 Runtime 层负责:

  • Context 管理
  • 工具调用
  • 记忆管理
  • 任务编排
  • 输出校验

二、上下文管理(Context Management)

上下文是 AI 系统最核心的资源。

问题在于:

上下文窗口是有限的,但业务信息是无限的。

常见的上下文结构:

复制代码
System Prompt
+ Tool Descriptions
+ Conversation History
+ Retrieved Knowledge
+ Task State

一个比较合理的 Context 结构:

复制代码
context = {
  system_prompt
  conversation_summary
  recent_messages
  retrieved_documents
  tool_schema
  task_state
}

实践经验:

1️⃣ 长历史必须压缩

常见方法:

  • sliding window
  • conversation summary
  • memory extraction

例如:

复制代码
最近5轮对话 + 历史摘要

而不是全部历史。


三、长对话记忆(Memory)

Agent 的记忆一般分三种:

1 短期记忆

当前任务上下文。

例如:

复制代码
当前对话
当前任务状态

存储方式:

复制代码
in-memory / redis

2 长期记忆

用户长期信息,例如:

  • 用户偏好
  • 历史行为
  • 重要事实

存储方式:

复制代码
vector db
kv storage

例子:

复制代码
user_memory:
- 用户偏好 Python
- 用户公司是 SaaS 公司

3 语义记忆

用于检索的知识。

复制代码
embedding
vector search

典型实现:

复制代码
OpenAI embedding
BGE
E5
  • Vector DB:
  • Milvus
  • pgvector
  • Weaviate

四、知识库更新(Knowledge Refresh)

RAG 最大的问题不是检索,而是 知识更新

很多系统上线后知识库就"死了"。

常见架构:

复制代码
Data Source
   │
ETL Pipeline
   │
Chunking
   │
Embedding
   │
Vector DB

关键问题:

1 文档切分(Chunking)

过大:

复制代码
召回不精准

过小:

复制代码
上下文不完整

经验值:

复制代码
300 ~ 800 tokens

2 增量更新

知识库必须支持:

复制代码
document version
incremental embedding

否则会产生 脏数据召回


五、如何避免检索垃圾(RAG Quality)

RAG 系统最大的问题:

召回很多垃圾内容。

常见优化:

复制代码
vector search
+ keyword search

例如:

复制代码
BM25 + embedding

2 Rerank

流程:

复制代码
query
↓
vector search (top50)
↓
rerank
↓
top5

常见模型:

  • bge-reranker
  • cohere rerank

3 Query Rewrite

让 LLM 先改写查询。

例如:

复制代码
用户问题 → 检索查询

六、模型输出校验(Guardrails)

LLM 输出是 概率结果

必须校验。

常见方式:

1 JSON Schema

复制代码
{
 "name": "string",
 "date": "date"
}

让模型输出结构化数据。


2 LLM Validator

使用第二个模型校验:

复制代码
generate → validate

例如:

复制代码
是否符合规则?
是否包含敏感内容?

3 Deterministic Rule

例如:

复制代码
金额
日期
ID

使用代码校验。


七、失败与重试机制

生产系统里,LLM 调用失败是常态。

常见原因:

  • API timeout
  • token overflow
  • hallucination
  • 工具调用失败

标准处理:

复制代码
try
 ↓
retry
 ↓
fallback

例如:

复制代码
LLM → Tool → LLM
         ↓
       fail
         ↓
      retry

建议:

复制代码
指数退避

八、日志与可观测性

AI 系统必须有 可观测性

需要记录:

复制代码
prompt
context
model response
tool calls
latency
token usage

典型日志结构:

复制代码
trace_id
conversation_id
prompt
response
tools
latency
tokens

常见工具:

  • LangSmith
  • Helicone
  • OpenTelemetry

九、权限与安全

AI Agent 如果能调用工具,就必须做权限控制。

例如:

Agent 可以调用:

复制代码
发邮件
查数据库
改 Jira

必须限制:

复制代码
谁能调用
调用什么
调用范围

常见架构:

复制代码
User
 ↓
Auth
 ↓
Agent
 ↓
Tool

十、工具调用(Tool Use)

工具调用是 Agent 能力的核心。

常见方式:

Function Calling

模型返回:

复制代码
{
 "tool": "search_ticket",
 "args": {...}
}

系统执行:

复制代码
tool.execute()

再把结果返回给 LLM。

循环:

复制代码
LLM → Tool → LLM

十一、Agent Workflow

复杂任务需要流程。

例如:

复制代码
用户问题
↓
检索知识
↓
生成方案
↓
调用API
↓
输出结果

可以使用:

  • LangGraph
  • Temporal
  • Airflow

实现:

复制代码
LLM + Workflow

十二、AI 系统真正的难点

很多团队以为:

"接个 GPT API 就完了。"

但真实情况是:

80% 的工作是系统工程。

包括:

  • RAG 架构
  • 工具调用
  • workflow
  • 监控
  • 权限
  • 数据治理

真正的 AI 系统架构更像:

复制代码
Search Engine
+
Workflow Engine
+
Decision System
+
LLM

结语

AI / Agent 系统不是一个模型问题,而是一个 系统架构问题

一个稳定的 AI 系统需要:

  • Context 管理
  • Memory 体系
  • 高质量 RAG
  • Tool 调用
  • Workflow 编排
  • Guardrails
  • Observability

最终目标是让 AI 能够:

  • 接入业务系统
  • 自动调用工具
  • 执行流程
  • 做出决策
  • 输出结果

并且 稳定运行在生产环境

这才是真正的 AI Engineering

相关推荐
FrontAI4 分钟前
深入浅出 LangGraph —— 第6章:工具调用与ToolNode
人工智能·langchain·ai agent·langgraph
前端DOM哥5 分钟前
8 年前的老代码 + 20 刀 AI token = 我的第一款独立产品
前端·人工智能·架构
蔡大锅14 分钟前
🔥 在线学习算力平台推荐-Hyper.AI
人工智能·算法
老唐77718 分钟前
常见经典十大大机器学习算法分类与总结
人工智能·深度学习·神经网络·学习·算法·机器学习·ai
knight_9___22 分钟前
LLM工具调用面试篇2
人工智能·python·深度学习·机器学习·agent·rag
xlecho32 分钟前
从单一语言到全域全栈,AI凭全能实力,淘汰旧时代语言工程师
人工智能·后端·开源
lcj092466644 分钟前
数据中心运维升级|磁控U位硬件联动DCIM,破解U位管控难题
运维·人工智能·经验分享·信息可视化
ECT-OS-JiuHuaShan1 小时前
渡劫代谢,好事多磨
数据库·人工智能·科技·学习·算法·生活
阿瑞说项目管理1 小时前
有监督 vs 全自主:两种 Agent 范式,你选对了吗?
人工智能·agent·智能体·企业级ai
乔江seven1 小时前
【李沐 | 动手学深度学习】18 深度学习硬件:TPU和其他
人工智能·深度学习·深度学习硬件