AI基础概念之七：一个AI应用的基本架构

一个 AI 应用的基本架构遵循 "数据层→模型层→服务层→应用层→运维监控层" 的五层闭环逻辑，核心是实现 "数据输入 - 模型推理 - 功能输出 - 反馈优化" 的全链路流程。

以一个基于语言大模型（LLM）的 Chat + 问答 + 问数一体化应用为例，其架构组成、各模块功能与实现方式如下：

一、 AI 应用通用五层架构

层级	核心组成部分	核心功能	实现方式与关键技术
1. 数据层	原始数据源、数据预处理模块、知识库、向量数据库、数据存储系统	为模型提供训练 / 推理数据，支撑问答的知识准确性、问数的数据连通性	1. 数据源：结构化数据（MySQL/ClickHouse 数仓）、非结构化数据（文档 / 网页 / 对话记录）、用户交互日志2. 预处理：文本清洗（去噪 / 分词）、结构化数据抽取（SQL 表结构解析）、数据标注（SFT 微调数据）3. 存储：- 知识库：向量数据库（Milvus/FAISS）存储文本 embedding，支持相似性检索- 业务数据：关系型数据库 / 数仓存储结构化数据，供问数功能调用- 日志数据：ES/ClickHouse 存储用户对话 / 反馈日志，用于模型迭代
2. 模型层	基础大模型、模型微调模块、Embedding 模型、工具调用模块（Function Call）、推理引擎	实现核心的语言理解、对话生成、知识检索、数据分析能力	1. 基础大模型：选用开源模型（Llama 3/Qwen-2）或闭源 API（GPT-4o/Claude 3），负责自然语言交互核心逻辑2. Embedding 模型：如 BGE-m3/text-embedding-ada-002，将文本 / 知识库内容转为向量，支撑问答的检索增强生成（RAG） 3. 微调模块：通过 SFT（有监督微调）适配业务场景（如行业术语、专属问答话术），提升回答准确性4. 工具调用：实现问数功能 ------ 模型解析用户自然语言问题→生成 SQL 语句→调用数仓执行→返回结果并自然语言解释5. 推理引擎：使用 vLLM/TensorRT-LLM 优化推理速度，支持批量请求与低延迟响应
3. 服务层	API 网关、会话管理模块、权限控制模块、负载均衡模块、缓存模块	封装模型能力，提供稳定、安全、高可用的服务接口，支撑多端应用调用	1. API 网关：统一入口（如 FastAPI/Flask），提供 Chat / 问答 / 问数的标准化接口（RESTful/gRPC）2. 会话管理：维护用户对话上下文（Context Window），支持多轮对话记忆，通过 Redis 缓存会话状态3. 权限控制：基于 RBAC 模型，限制用户访问范围（如问数功能仅开放指定数据表）4. 负载均衡：使用 Nginx/K8s 实现请求分发，避免单节点过载5. 缓存：Redis 缓存高频问答结果、向量检索结果，提升响应速度
4. 应用层	前端交互界面、多端适配模块、功能路由模块（Chat / 问答 / 问数）、结果展示模块	面向用户的交互入口，实现不同场景的功能切换与结果呈现	1. 前端界面：- Chat 场景：对话输入框 + 历史消息展示，支持富文本（图片 / 文件上传）- 问答场景：知识库检索入口，支持文档上传、问题精准匹配- 问数场景：数据看板联动、SQL 语句可视化、结果图表展示（如 ECharts）2. 功能路由：根据用户输入意图（如 "查销售额" 判定为问数），路由到对应模块（RAG / 工具调用）3. 多端适配：支持 Web / 移动端 / 企业微信 / 钉钉插件，通过响应式设计或跨端框架（React Native）实现
5. 运维监控层	日志监控模块、性能监控模块、模型效果评估模块、告警模块、迭代优化模块	保障系统稳定运行，持续优化模型效果与用户体验	1. 监控指标：- 系统指标：QPS、响应延迟、服务器 CPU/GPU 利用率、错误率- 模型指标：回答准确率（人工标注 / 自动评估）、用户满意度（点赞 / 差评）、问数 SQL 执行成功率2. 日志分析：ELK 栈收集用户对话日志，分析高频问题、失败案例，指导模型微调与知识库更新3. 告警机制：设置阈值（如响应延迟 > 5s），通过邮件 / 钉钉推送告警信息4. 迭代优化：基于用户反馈日志，持续更新知识库、优化微调数据、调整推理参数（如温度系数）

二、核心场景的实现流程

1. 基础 Chat 场景（无知识库 / 数据依赖）

复制代码

用户输入（自然语言）→ API网关 → 会话管理（加载上下文）→ 模型推理 → 生成回答 → 前端展示 → 日志存储（用于优化）

关键：通过温度系数（Temperature） 控制回答随机性（0 = 确定性回答，1 = 创造性回答）；上下文窗口管理避免超长对话导致的性能下降。

2. 知识库问答场景（RAG 增强）

复制代码

用户提问 → 意图识别 → Embedding模型生成问题向量 → 向量数据库检索相似知识库片段 → 拼接"问题+知识库片段"作为Prompt → 大模型生成回答 → 前端展示

关键：RAG 技术解决大模型 "知识过时""幻觉" 问题，通过检索外部知识库提升回答准确性；支持文档批量导入、增量更新。

3. 问数场景（LLM + 工具调用）

复制代码

用户输入（如"2025年Q3销售额Top3的产品"）→ 大模型解析意图 → 生成SQL语句（如SELECT product, sales FROM sales_db WHERE quarter='Q3 2025' ORDER BY sales DESC LIMIT 3）→ 工具调用模块执行SQL → 数仓返回结构化结果 → 大模型将结果转为自然语言解释 → 前端展示（可生成柱状图）

关键：Function Call 能力是核心 ------ 需预先定义数仓的表结构、字段含义、查询权限，大模型根据这些元数据生成合法 SQL；添加 SQL 执行校验，避免恶意查询。

三、关键技术难点与解决方案

难点	解决方案
大模型幻觉问题	引入 RAG 检索增强，基于知识库生成回答；添加事实校验模块，对比回答与数据源一致性
问数 SQL 生成错误	预训练模型学习 SQL 语法；提供表结构元数据提示；添加 SQL 语法校验与执行沙箱
多轮对话上下文丢失	基于 Redis 缓存会话上下文；实现上下文摘要（长对话时压缩历史消息，保留关键信息）
系统高并发性能瓶颈	使用 vLLM/TensorRT-LLM 优化推理；K8s 弹性扩容；缓存高频请求结果
数据安全与权限问题	细粒度权限控制（用户仅能访问授权数据表）；SQL 执行前进行权限校验；敏感数据脱敏

四、架构特点总结

模块化设计：各层级解耦，支持独立升级（如替换大模型、扩展数据源）。
闭环优化：用户反馈日志回流到数据层，持续驱动模型和知识库迭代。
多场景复用：基于同一大模型底座，通过 RAG 和工具调用实现 Chat / 问答 / 问数的一体化，降低开发成本。

AI基础概念之七：一个AI应用的基本架构

一、 AI 应用通用五层架构

二、 核心场景的实现流程

1. 基础 Chat 场景（无知识库 / 数据依赖）

2. 知识库问答场景（RAG 增强）

3. 问数场景（LLM + 工具调用）

三、 关键技术难点与解决方案

四、 架构特点总结

二、核心场景的实现流程

三、关键技术难点与解决方案

四、架构特点总结