从 Prompt 到系统工程:AI / Agent 系统架构设计要点

过去一年,大模型从 Demo 阶段 走向 生产系统

很多团队已经发现:真正困难的不是"接入一个模型",而是 如何把大模型稳定接入业务系统

一个可用的 AI / Agent 系统,本质上是一个新的 软件架构层

大模型只是推理引擎,系统工程才是核心。

在实践中,一个 AI Agent 系统通常需要解决以下核心问题:

  • 上下文怎么管理?
  • 长对话怎么做记忆?
  • 知识库怎么更新?
  • 检索怎么避免召回垃圾?
  • 模型输出怎么校验?
  • 失败了怎么重试?
  • 怎么做日志?
  • 怎么做权限?

以及更关键的工程问题:

  • 能不能把大模型接入业务系统?
  • 能不能自动调用工具?
  • 能不能跑流程、做决策、出结果?
  • 能不能 稳定交付

这篇文章从 系统架构角度,梳理 AI / Agent 系统落地的关键设计。


一、AI Agent 系统的整体架构

一个生产级 AI Agent 系统通常包含五层:

复制代码
            ┌─────────────────────┐
            │      Application     │
            │   (业务应用 / Agent) │
            └─────────▲───────────┘
                      │
            ┌─────────┴───────────┐
            │     Orchestration    │
            │ (任务规划 / 工具调用) │
            └─────────▲───────────┘
                      │
            ┌─────────┴───────────┐
            │     LLM Runtime      │
            │ (Prompt / Context)   │
            └─────────▲───────────┘
                      │
            ┌─────────┴───────────┐
            │    Knowledge Layer   │
            │   (RAG / Memory)     │
            └─────────▲───────────┘
                      │
            ┌─────────┴───────────┐
            │  Infrastructure      │
            │ 日志 / 权限 / 监控    │
            └─────────────────────┘

核心思想:

LLM 不直接面对业务系统,而是通过一个 Agent Runtime 层。

这个 Runtime 层负责:

  • Context 管理
  • 工具调用
  • 记忆管理
  • 任务编排
  • 输出校验

二、上下文管理(Context Management)

上下文是 AI 系统最核心的资源。

问题在于:

上下文窗口是有限的,但业务信息是无限的。

常见的上下文结构:

复制代码
System Prompt
+ Tool Descriptions
+ Conversation History
+ Retrieved Knowledge
+ Task State

一个比较合理的 Context 结构:

复制代码
context = {
  system_prompt
  conversation_summary
  recent_messages
  retrieved_documents
  tool_schema
  task_state
}

实践经验:

1️⃣ 长历史必须压缩

常见方法:

  • sliding window
  • conversation summary
  • memory extraction

例如:

复制代码
最近5轮对话 + 历史摘要

而不是全部历史。


三、长对话记忆(Memory)

Agent 的记忆一般分三种:

1 短期记忆

当前任务上下文。

例如:

复制代码
当前对话
当前任务状态

存储方式:

复制代码
in-memory / redis

2 长期记忆

用户长期信息,例如:

  • 用户偏好
  • 历史行为
  • 重要事实

存储方式:

复制代码
vector db
kv storage

例子:

复制代码
user_memory:
- 用户偏好 Python
- 用户公司是 SaaS 公司

3 语义记忆

用于检索的知识。

复制代码
embedding
vector search

典型实现:

复制代码
OpenAI embedding
BGE
E5
  • Vector DB:
  • Milvus
  • pgvector
  • Weaviate

四、知识库更新(Knowledge Refresh)

RAG 最大的问题不是检索,而是 知识更新

很多系统上线后知识库就"死了"。

常见架构:

复制代码
Data Source
   │
ETL Pipeline
   │
Chunking
   │
Embedding
   │
Vector DB

关键问题:

1 文档切分(Chunking)

过大:

复制代码
召回不精准

过小:

复制代码
上下文不完整

经验值:

复制代码
300 ~ 800 tokens

2 增量更新

知识库必须支持:

复制代码
document version
incremental embedding

否则会产生 脏数据召回


五、如何避免检索垃圾(RAG Quality)

RAG 系统最大的问题:

召回很多垃圾内容。

常见优化:

复制代码
vector search
+ keyword search

例如:

复制代码
BM25 + embedding

2 Rerank

流程:

复制代码
query
↓
vector search (top50)
↓
rerank
↓
top5

常见模型:

  • bge-reranker
  • cohere rerank

3 Query Rewrite

让 LLM 先改写查询。

例如:

复制代码
用户问题 → 检索查询

六、模型输出校验(Guardrails)

LLM 输出是 概率结果

必须校验。

常见方式:

1 JSON Schema

复制代码
{
 "name": "string",
 "date": "date"
}

让模型输出结构化数据。


2 LLM Validator

使用第二个模型校验:

复制代码
generate → validate

例如:

复制代码
是否符合规则?
是否包含敏感内容?

3 Deterministic Rule

例如:

复制代码
金额
日期
ID

使用代码校验。


七、失败与重试机制

生产系统里,LLM 调用失败是常态。

常见原因:

  • API timeout
  • token overflow
  • hallucination
  • 工具调用失败

标准处理:

复制代码
try
 ↓
retry
 ↓
fallback

例如:

复制代码
LLM → Tool → LLM
         ↓
       fail
         ↓
      retry

建议:

复制代码
指数退避

八、日志与可观测性

AI 系统必须有 可观测性

需要记录:

复制代码
prompt
context
model response
tool calls
latency
token usage

典型日志结构:

复制代码
trace_id
conversation_id
prompt
response
tools
latency
tokens

常见工具:

  • LangSmith
  • Helicone
  • OpenTelemetry

九、权限与安全

AI Agent 如果能调用工具,就必须做权限控制。

例如:

Agent 可以调用:

复制代码
发邮件
查数据库
改 Jira

必须限制:

复制代码
谁能调用
调用什么
调用范围

常见架构:

复制代码
User
 ↓
Auth
 ↓
Agent
 ↓
Tool

十、工具调用(Tool Use)

工具调用是 Agent 能力的核心。

常见方式:

Function Calling

模型返回:

复制代码
{
 "tool": "search_ticket",
 "args": {...}
}

系统执行:

复制代码
tool.execute()

再把结果返回给 LLM。

循环:

复制代码
LLM → Tool → LLM

十一、Agent Workflow

复杂任务需要流程。

例如:

复制代码
用户问题
↓
检索知识
↓
生成方案
↓
调用API
↓
输出结果

可以使用:

  • LangGraph
  • Temporal
  • Airflow

实现:

复制代码
LLM + Workflow

十二、AI 系统真正的难点

很多团队以为:

"接个 GPT API 就完了。"

但真实情况是:

80% 的工作是系统工程。

包括:

  • RAG 架构
  • 工具调用
  • workflow
  • 监控
  • 权限
  • 数据治理

真正的 AI 系统架构更像:

复制代码
Search Engine
+
Workflow Engine
+
Decision System
+
LLM

结语

AI / Agent 系统不是一个模型问题,而是一个 系统架构问题

一个稳定的 AI 系统需要:

  • Context 管理
  • Memory 体系
  • 高质量 RAG
  • Tool 调用
  • Workflow 编排
  • Guardrails
  • Observability

最终目标是让 AI 能够:

  • 接入业务系统
  • 自动调用工具
  • 执行流程
  • 做出决策
  • 输出结果

并且 稳定运行在生产环境

这才是真正的 AI Engineering

相关推荐
Samooyou7 小时前
RAG项目案例--02在线检索&过滤流水线
人工智能·python·ai·全文检索·检索
动能小子ohhh7 小时前
DocForge平台的设计与开发--文件上传接口的实现
开发语言·人工智能·python·langchain·ocr·fastapi
朴马丁8 小时前
预制菜的“数字厨房”:PLM如何支撑菜品标准化与供应链高效协同?
大数据·人工智能·食品行业·流程行业plm
小沈同学呀8 小时前
SpringAI+MCPServer实战-StreamableHTTP协议打造企业级AI工具服务
人工智能·微服务架构·springai·mcpserver·javaai·streamablehttp
net3m338 小时前
一阶软件低通滤波器算法
人工智能·算法
武汉唯众智创8 小时前
边缘端部署 AI 心理分析:自研边缘主机跑通人脸 + 语音双模态推理,不用云端算力详解
人工智能·ai心理健康·校园心理健康·多模态推理·人脸情绪识别·语音情感分析·心理健康信息化平台
IT_陈寒8 小时前
Python的线程池把我坑惨了,原来异步不是万能的
前端·人工智能·后端
水木流年追梦8 小时前
大模型入门-大模型优化方法12-YaRN 长文本外推技术
人工智能·分布式·算法·正则表达式·prompt
Litluecat8 小时前
2026年6月6日科技热点新闻
人工智能·科技·热点·每日
小旭95278 小时前
Spring AI Alibaba 从入门到实战:一站式掌握企业级 AI 应用开发
java·人工智能·spring