从 Prompt 到系统工程:AI / Agent 系统架构设计要点

过去一年,大模型从 Demo 阶段 走向 生产系统

很多团队已经发现:真正困难的不是"接入一个模型",而是 如何把大模型稳定接入业务系统

一个可用的 AI / Agent 系统,本质上是一个新的 软件架构层

大模型只是推理引擎,系统工程才是核心。

在实践中,一个 AI Agent 系统通常需要解决以下核心问题:

  • 上下文怎么管理?
  • 长对话怎么做记忆?
  • 知识库怎么更新?
  • 检索怎么避免召回垃圾?
  • 模型输出怎么校验?
  • 失败了怎么重试?
  • 怎么做日志?
  • 怎么做权限?

以及更关键的工程问题:

  • 能不能把大模型接入业务系统?
  • 能不能自动调用工具?
  • 能不能跑流程、做决策、出结果?
  • 能不能 稳定交付

这篇文章从 系统架构角度,梳理 AI / Agent 系统落地的关键设计。


一、AI Agent 系统的整体架构

一个生产级 AI Agent 系统通常包含五层:

复制代码
            ┌─────────────────────┐
            │      Application     │
            │   (业务应用 / Agent) │
            └─────────▲───────────┘
                      │
            ┌─────────┴───────────┐
            │     Orchestration    │
            │ (任务规划 / 工具调用) │
            └─────────▲───────────┘
                      │
            ┌─────────┴───────────┐
            │     LLM Runtime      │
            │ (Prompt / Context)   │
            └─────────▲───────────┘
                      │
            ┌─────────┴───────────┐
            │    Knowledge Layer   │
            │   (RAG / Memory)     │
            └─────────▲───────────┘
                      │
            ┌─────────┴───────────┐
            │  Infrastructure      │
            │ 日志 / 权限 / 监控    │
            └─────────────────────┘

核心思想:

LLM 不直接面对业务系统,而是通过一个 Agent Runtime 层。

这个 Runtime 层负责:

  • Context 管理
  • 工具调用
  • 记忆管理
  • 任务编排
  • 输出校验

二、上下文管理(Context Management)

上下文是 AI 系统最核心的资源。

问题在于:

上下文窗口是有限的,但业务信息是无限的。

常见的上下文结构:

复制代码
System Prompt
+ Tool Descriptions
+ Conversation History
+ Retrieved Knowledge
+ Task State

一个比较合理的 Context 结构:

复制代码
context = {
  system_prompt
  conversation_summary
  recent_messages
  retrieved_documents
  tool_schema
  task_state
}

实践经验:

1️⃣ 长历史必须压缩

常见方法:

  • sliding window
  • conversation summary
  • memory extraction

例如:

复制代码
最近5轮对话 + 历史摘要

而不是全部历史。


三、长对话记忆(Memory)

Agent 的记忆一般分三种:

1 短期记忆

当前任务上下文。

例如:

复制代码
当前对话
当前任务状态

存储方式:

复制代码
in-memory / redis

2 长期记忆

用户长期信息,例如:

  • 用户偏好
  • 历史行为
  • 重要事实

存储方式:

复制代码
vector db
kv storage

例子:

复制代码
user_memory:
- 用户偏好 Python
- 用户公司是 SaaS 公司

3 语义记忆

用于检索的知识。

复制代码
embedding
vector search

典型实现:

复制代码
OpenAI embedding
BGE
E5
  • Vector DB:
  • Milvus
  • pgvector
  • Weaviate

四、知识库更新(Knowledge Refresh)

RAG 最大的问题不是检索,而是 知识更新

很多系统上线后知识库就"死了"。

常见架构:

复制代码
Data Source
   │
ETL Pipeline
   │
Chunking
   │
Embedding
   │
Vector DB

关键问题:

1 文档切分(Chunking)

过大:

复制代码
召回不精准

过小:

复制代码
上下文不完整

经验值:

复制代码
300 ~ 800 tokens

2 增量更新

知识库必须支持:

复制代码
document version
incremental embedding

否则会产生 脏数据召回


五、如何避免检索垃圾(RAG Quality)

RAG 系统最大的问题:

召回很多垃圾内容。

常见优化:

复制代码
vector search
+ keyword search

例如:

复制代码
BM25 + embedding

2 Rerank

流程:

复制代码
query
↓
vector search (top50)
↓
rerank
↓
top5

常见模型:

  • bge-reranker
  • cohere rerank

3 Query Rewrite

让 LLM 先改写查询。

例如:

复制代码
用户问题 → 检索查询

六、模型输出校验(Guardrails)

LLM 输出是 概率结果

必须校验。

常见方式:

1 JSON Schema

复制代码
{
 "name": "string",
 "date": "date"
}

让模型输出结构化数据。


2 LLM Validator

使用第二个模型校验:

复制代码
generate → validate

例如:

复制代码
是否符合规则?
是否包含敏感内容?

3 Deterministic Rule

例如:

复制代码
金额
日期
ID

使用代码校验。


七、失败与重试机制

生产系统里,LLM 调用失败是常态。

常见原因:

  • API timeout
  • token overflow
  • hallucination
  • 工具调用失败

标准处理:

复制代码
try
 ↓
retry
 ↓
fallback

例如:

复制代码
LLM → Tool → LLM
         ↓
       fail
         ↓
      retry

建议:

复制代码
指数退避

八、日志与可观测性

AI 系统必须有 可观测性

需要记录:

复制代码
prompt
context
model response
tool calls
latency
token usage

典型日志结构:

复制代码
trace_id
conversation_id
prompt
response
tools
latency
tokens

常见工具:

  • LangSmith
  • Helicone
  • OpenTelemetry

九、权限与安全

AI Agent 如果能调用工具,就必须做权限控制。

例如:

Agent 可以调用:

复制代码
发邮件
查数据库
改 Jira

必须限制:

复制代码
谁能调用
调用什么
调用范围

常见架构:

复制代码
User
 ↓
Auth
 ↓
Agent
 ↓
Tool

十、工具调用(Tool Use)

工具调用是 Agent 能力的核心。

常见方式:

Function Calling

模型返回:

复制代码
{
 "tool": "search_ticket",
 "args": {...}
}

系统执行:

复制代码
tool.execute()

再把结果返回给 LLM。

循环:

复制代码
LLM → Tool → LLM

十一、Agent Workflow

复杂任务需要流程。

例如:

复制代码
用户问题
↓
检索知识
↓
生成方案
↓
调用API
↓
输出结果

可以使用:

  • LangGraph
  • Temporal
  • Airflow

实现:

复制代码
LLM + Workflow

十二、AI 系统真正的难点

很多团队以为:

"接个 GPT API 就完了。"

但真实情况是:

80% 的工作是系统工程。

包括:

  • RAG 架构
  • 工具调用
  • workflow
  • 监控
  • 权限
  • 数据治理

真正的 AI 系统架构更像:

复制代码
Search Engine
+
Workflow Engine
+
Decision System
+
LLM

结语

AI / Agent 系统不是一个模型问题,而是一个 系统架构问题

一个稳定的 AI 系统需要:

  • Context 管理
  • Memory 体系
  • 高质量 RAG
  • Tool 调用
  • Workflow 编排
  • Guardrails
  • Observability

最终目标是让 AI 能够:

  • 接入业务系统
  • 自动调用工具
  • 执行流程
  • 做出决策
  • 输出结果

并且 稳定运行在生产环境

这才是真正的 AI Engineering

相关推荐
安逸sgr2 小时前
16-OpenClaw数据分析与可视化
人工智能·数据挖掘·数据分析·大模型·aigc·agent·openclaw
weiyvyy2 小时前
无人机嵌入式开发实战-安全机制与应急处理
人工智能·嵌入式硬件·安全·机器人·游戏引擎·无人机·信息化
GEO_Huang2 小时前
广佛莞深RPA定制,数谷智能科技让软件操控自动化?
大数据·人工智能·aigc·rpa·geo
你的论文学长2 小时前
【架构拆解】从 RAG 检索到全局 Linting:如何用工程化思维跑通几万字的自动化写作流?
运维·人工智能·安全·自然语言处理·架构·自动化·ai写作
xiaogutou11212 小时前
英语课件ppt一键生成实战:公开课、日常课的不同工具选择
人工智能
leijiwen2 小时前
未来软件系统架构:可被智能体使用将成为基本要求
系统架构
weiyvyy2 小时前
机械臂控制开发实战-机械臂控制系统架构
人工智能·嵌入式硬件·机器学习·架构·机器人·需求分析·嵌入式实时数据库
minhuan2 小时前
大模型应用:搜索的智能革命:大模型如何重塑传统搜索算法构建新一代智能检索.110
人工智能·搜索引擎·大模型应用·智能搜索实践