【大模型相关】基于大模型的企业级智能体服务平台

一、基于大模型的企业级智能体服务平台

方案需要覆盖：

前后端整体架构如何设计；
意图识别、任务规划、工具调用、RAG、长短期记忆如何协同；
流式输出、多轮会话、上下文管理如何实现；
安全合规、权限控制、内容审核、提示词注入防护如何设计；
系统如何支持可观测、可评估、可运营、可扩展；
短期如何落地 MVP，长期如何演进为统一智能体平台。

二、总体定位

这套系统不应只理解为"接一个大模型 API"，而应设计成：

AI 应用前端 + Agent 网关 + 编排引擎 + 工具平台 + 知识平台 + 记忆系统 + 安全治理 + 观测评估平台

生产级 Agent 本质上是一个分布式系统，大模型只是其中的"推理与决策组件"。OpenAI 对 Agents 的定义也强调：Agent 是能够规划、调用工具、协同处理任务并保持足够状态以完成多步骤工作的应用。(OpenAI 开发者)

三、整体架构

text 复制代码

前端层
Web / App / 管理后台 / 插件入口
        ↓
AI 接入层
Chat UI、SSE/WebSocket、会话管理、文件上传、语音/图片输入
        ↓
Agent Gateway
鉴权、限流、审计、租户隔离、模型路由、请求标准化
        ↓
Agent Orchestrator
意图识别、任务规划、上下文组装、工具选择、工作流编排
        ↓
能力层
RAG 检索、工具调用、业务 API、工作流引擎、代码执行、外部系统连接器
        ↓
记忆与数据层
短期记忆、长期记忆、用户画像、向量库、知识库、会话库、日志库
        ↓
治理层
安全合规、权限控制、内容审核、提示词注入防护、输出校验
        ↓
观测评估层
Tracing、调用链、成本、延迟、命中率、人工反馈、自动评测

OpenAI Agents SDK 已经把 tracing 作为核心能力，覆盖 LLM 生成、工具调用、handoff、guardrails 和自定义事件，这说明生产级智能体必须具备完整调用链观测，而不是只记录最终回答。(OpenAI GitHub)

四、前端框架设计

前端不只是聊天框，而是一个 AI 交互容器。

1. 核心页面形态

text 复制代码

1. Chat Copilot
   通用对话、问答、任务触发

2. Embedded AI Panel
   嵌入业务页面右侧，例如客户详情、投研报告、目标计划页

3. AI Command Bar
   类似快捷指令入口，例如"帮我生成计划""总结当前页面"

4. Workflow Form
   当 Agent 识别出明确任务后，转成结构化表单让用户确认

5. Review & Approval Page
   对高风险动作进行人工确认，例如转账、发送邮件、下单、修改配置

2. 前端需要传递的上下文

每次请求不应只传用户输入，而应传完整上下文：

json 复制代码

{
  "session_id": "s_001",
  "user_id": "u_001",
  "tenant_id": "t_001",
  "page_code": "goal_detail",
  "entry_type": "chat_panel",
  "user_input": "帮我把计划调高一点",
  "page_context": {
    "goal_id": "g_123",
    "goal_name": "买车计划",
    "current_amount": 50000,
    "target_amount": 200000
  },
  "client_capabilities": {
    "support_stream": true,
    "support_tool_card": true,
    "support_form_render": true
  }
}

这样后端才能识别"调高一点"到底指目标金额、月存金额还是风险等级。

3. 流式输出设计

建议用 SSE 优先，WebSocket 可选。

SSE 适合大多数文本生成和工具状态推送：

text 复制代码

event: message_delta
data: {"text":"我先帮你分析当前计划..."}

event: tool_call
data: {"tool":"query_goal_detail","status":"running"}

event: tool_result
data: {"tool":"query_goal_detail","status":"success"}

event: message_delta
data: {"text":"根据当前进度，你每月需要增加..."}

event: final
data: {"answer":"完整结论..."}

前端要支持：

text 复制代码

1. 打字机效果
2. 工具调用状态卡片
3. 中间步骤展示
4. 表单确认卡片
5. 失败重试
6. 用户中断生成
7. 敏感动作确认

五、后端核心服务设计

1. Agent Gateway

负责统一入口：

text 复制代码

鉴权认证
租户隔离
限流熔断
模型路由
请求标准化
日志审计
安全预检
流式响应转发

建议不要让前端直接访问模型 API。

2. Intent Service：意图识别服务

意图识别不应只做分类，而应输出：

json 复制代码

{
  "intent": "adjust_saving_plan",
  "confidence": 0.87,
  "slots": {
    "goal_id": "g_123",
    "adjust_direction": "increase"
  },
  "missing_slots": ["adjust_amount"],
  "risk_level": "medium",
  "next_action": "ask_clarification"
}

推荐策略：

text 复制代码

高确定性场景：规则识别
高频稳定场景：Embedding 相似度召回
复杂表达场景：LLM 结构化识别
低置信度场景：澄清问题
高风险动作：强制确认

3. Orchestrator：智能体编排引擎

这是核心。

text 复制代码

输入用户请求
  ↓
读取会话状态
  ↓
识别意图
  ↓
检索知识 / 读取记忆
  ↓
选择 Agent / 工具 / 工作流
  ↓
规划执行步骤
  ↓
调用工具
  ↓
校验结果
  ↓
生成响应
  ↓
写入记忆与日志

对于简单任务，可以走单 Agent；复杂任务建议多 Agent：

text 复制代码

Router Agent：判断任务类型
Planner Agent：拆解步骤
Retriever Agent：知识检索
Tool Agent：业务工具调用
Writer Agent：生成最终回答
Reviewer Agent：安全与质量复核

六、长短期记忆设计

LangGraph 对记忆的划分很清晰：短期记忆是线程级会话状态，长期记忆是跨会话的用户级或应用级数据。短期记忆可通过 checkpointer 持久化，长期记忆可按 namespace 存储并在任意会话中召回。(LangChain 文档)## 1. 短期记忆

用于当前会话：

text 复制代码

最近消息
已识别意图
已填参数
工具调用结果
当前任务状态
用户刚刚确认/拒绝的动作

存储建议：

text 复制代码

Redis：热会话状态
PostgreSQL/MySQL：持久化会话
对象存储：大文件、上下文快照

2. 长期记忆

用于跨会话个性化：

text 复制代码

用户偏好
常用业务对象
历史目标
风险偏好
常用表达方式
已确认过的规则

但长期记忆必须经过筛选，不是所有对话都写入。

写入策略：

text 复制代码

用户明确要求记住 → 写入
高频稳定偏好 → 候选写入
敏感信息 → 默认不写，除非明确授权
短期事实 → 不写

3. 记忆调用链

text 复制代码

用户输入
  ↓
读取短期记忆：当前会话上下文
  ↓
读取长期记忆：用户偏好 / 历史行为
  ↓
检索业务知识：RAG
  ↓
组装 Prompt
  ↓
模型生成
  ↓
筛选可沉淀记忆
  ↓
写入记忆库

七、RAG 与知识库设计

RAG 不是简单向量检索，而是企业知识能力中心。

text 复制代码

文档采集
  ↓
解析清洗
  ↓
切片 chunk
  ↓
元数据标注
  ↓
Embedding
  ↓
向量库 / 全文索引
  ↓
混合检索
  ↓
重排序
  ↓
权限过滤
  ↓
引用生成

关键点：

text 复制代码

1. 文档切片要保留标题、章节、来源、权限
2. 检索必须做权限过滤
3. 结果必须带引用
4. 高风险场景要回答"依据不足"
5. 支持全文检索 + 向量检索 + 结构化查询

八、安全合规设计

安全必须是全链路能力，而不是最后加一个内容审核接口。

OWASP 2025 LLM Top 10 将 Prompt Injection、敏感信息泄露、不安全输出处理、过度代理能力等列为主要风险。(OWASP Gen AI Security Project) Prompt Injection 的核心问题是用户输入可能改变模型行为，让模型绕过既定规则。(OWASP Gen AI Security Project)

1. 输入安全

text 复制代码

敏感词检测
越权意图检测
Prompt Injection 检测
恶意文件检测
PII 识别
高风险请求拦截

2. 工具调用安全

Agent 最大风险不是"说错"，而是"做错"。

text 复制代码

工具白名单
工具级权限控制
参数校验
额度限制
高风险动作二次确认
幂等控制
审计日志
回滚机制

例如：

text 复制代码

查询余额：低风险，可直接执行
生成计划：中风险，用户确认后保存
转账交易：高风险，必须人工确认 + 风控校验
删除数据：高风险，必须二次确认 + 可恢复

3. 输出安全

text 复制代码

事实性校验
敏感信息脱敏
合规话术
引用校验
JSON Schema 校验
禁止输出内部 Prompt
禁止泄露工具返回原始敏感字段

4. 权限模型

建议采用：

text 复制代码

用户权限
+ 租户权限
+ 数据权限
+ 工具权限
+ 场景权限
+ 风险等级

最终决策：

text 复制代码

是否允许回答
是否允许检索
是否允许调用工具
是否允许自动执行
是否需要人工确认

九、工具调用与工作流编排

工具需要注册成标准协议：

json 复制代码

{
  "tool_name": "create_saving_plan",
  "description": "为用户创建储蓄计划",
  "input_schema": {
    "goal_name": "string",
    "target_amount": "number",
    "target_date": "string",
    "monthly_budget": "number"
  },
  "risk_level": "medium",
  "auth_scope": "goal:write",
  "need_confirmation": true
}

执行流程：

text 复制代码

模型选择工具
  ↓
后端校验工具权限
  ↓
参数 Schema 校验
  ↓
风险判断
  ↓
必要时请求用户确认
  ↓
调用业务 API
  ↓
返回结构化结果
  ↓
模型生成自然语言解释

十、推荐技术架构

后端

text 复制代码

Spring Boot / Spring Cloud
Agent Gateway
Python Agent Runtime 可选
PostgreSQL / MySQL
Redis
Milvus / pgvector / Elasticsearch
Kafka / RabbitMQ
对象存储
Prometheus + Grafana
OpenTelemetry

AI 编排

text 复制代码

LangGraph / LangChain
OpenAI Agents SDK
自研 Orchestrator
模型网关 Model Gateway
Prompt 管理平台
Tool Registry
Memory Service
RAG Service
Guardrail Service

前端

text 复制代码

React / Vue
SSE Client
AI Chat Component
Tool Card Renderer
Dynamic Form Renderer
Markdown Renderer
Citation Renderer
Approval Modal

十一、核心数据模型

sql 复制代码

agent_session
- session_id
- user_id
- tenant_id
- status
- created_at
- updated_at

agent_message
- message_id
- session_id
- role
- content
- token_count
- created_at

agent_intent_log
- session_id
- user_input
- intent_code
- confidence
- slots_json
- next_action

agent_memory
- memory_id
- user_id
- namespace
- memory_type
- content
- embedding
- sensitivity_level
- created_at

tool_registry
- tool_code
- description
- input_schema
- risk_level
- auth_scope
- need_confirmation

agent_trace
- trace_id
- session_id
- step_type
- input_json
- output_json
- latency_ms
- cost
- status

十二、端到端调用流程

text 复制代码

用户："帮我规划一下半年存 5 万"
  ↓
前端发送 user_input + page_context
  ↓
Agent Gateway 做鉴权、限流、安全预检
  ↓
Intent Service 识别 create_saving_plan
  ↓
Memory Service 读取用户偏好
  ↓
RAG Service 检索储蓄计划规则
  ↓
Planner 判断缺少 monthly_budget
  ↓
模型流式回复："可以，我还需要知道你每月最多能存多少钱？"
  ↓
用户："8000"
  ↓
Slot 补齐
  ↓
调用 create_saving_plan 工具
  ↓
风险等级 medium，需要用户确认
  ↓
前端展示确认卡片
  ↓
用户确认
  ↓
业务 API 创建计划
  ↓
模型输出结果
  ↓
写入会话、日志、可沉淀记忆

十三、MVP 落地建议

第一阶段建议不要一开始做"大而全 Agent 平台"，而是做一个可控闭环：

text 复制代码

1. 一个统一 AI 入口
2. 20～30 个核心意图
3. 5～10 个高频业务工具
4. 一个 RAG 知识库
5. 短期记忆
6. 基础长期记忆
7. SSE 流式输出
8. 工具调用确认卡片
9. 安全网关
10. 调用链日志

优先级：

text 复制代码

P0：会话、流式输出、意图识别、工具调用、权限、安全拦截
P1：RAG、短期记忆、确认卡片、审计日志
P2：长期记忆、多 Agent、自动评测、Prompt 管理
P3：模型路由、成本优化、复杂工作流、人机协同

十四、最终总结

你要设计的不是单点"意图识别"或"聊天机器人"，而是一套：

可被业务系统调用、可控、可审计、可扩展的智能体服务平台。

核心原则是：

text 复制代码

前端负责交互与确认
网关负责安全与治理
编排层负责规划与路由
模型负责理解与生成
工具层负责真实执行
记忆层负责上下文连续性
知识层负责事实依据
观测层负责持续优化

最推荐的落地路径是：

先做"AI 助手 + 意图识别 + 工具调用 + 流式输出 + 安全确认"的 MVP，再逐步演进为"多 Agent + 长期记忆 + 工作流编排 + 企业知识中枢"的智能体平台。