从实践中提炼的架构设计与工程规范

阿珊和她的猫2026-05-06 17:11

🤍 前端开发工程师、技术日更博主、已过CET6

🍨 阿珊和她的猫_CSDN博客专家、23年度博客之星前端领域TOP1

🕠 牛客高级专题作者、打造专栏《前端面试必备》、《2024面试高频手撕题》、《前端求职突破计划》

🍚 蓝桥云课 签约作者、上架课程《Vue.js 和 Egg.js 开发企业级健康管理项目》、《带你从入门到实战全面掌握 uni-app》

文章目录

一、架构设计核心原则（实战版）
二、标准分层架构（企业通用）
三、工程规范（直接进团队文档）
- [1）API 规范](#1）API 规范)
- [2）Prompt 规范](#2）Prompt 规范)
- [3）RAG 规范](#3）RAG 规范)
- 4）部署规范
- 5）安全规范
- 6）成本规范
- 7）日志规范
四、上线前必做检查（防崩清单）
五、一句话总结（最精髓）

一、架构设计核心原则（实战版）

统一入口，不裸调模型

所有业务 → 网关层 → 模型服务，绝不前端直连第三方API。
能规则就规则，能检索就检索，最后才大模型

查询、计算、固定流程 → 用代码/数据库

知识问答 → RAG

自然语言生成 → 大模型
模型与业务解耦

今天用GPT，明天换文心/通义/Llama，业务代码不动。
必须有缓存、限流、降级

缓存扛重复请求，限流防账单爆炸，降级保证服务不死。
输入必校验，输出必审核

输入防注入、防恶意prompt；输出防幻觉、违规、越权。
流式优先，异步兜底

对话用stream，长任务用异步，不阻塞、体验好。
多模型路由，动态选择

简单问题小模型，复杂问题强模型，敏感问题本地模型。
一切可观测：日志、埋点、监控

调用量、耗时、token、成本、错误率、幻觉率，全都要看得见。

二、标准分层架构（企业通用）

接入层

鉴权、限流、流量管控、协议统一
业务层

意图识别、状态管理、流程控制、工具调用
能力层

RAG检索、函数调用、插件系统、多模态
模型调度层

路由、熔断、重试、负载均衡
模型适配层

统一封装OpenAI/文心/通义/Claude/本地模型
护栏层

敏感词、越权行为、违规输出、事实校验
日志与治理层

审计、成本、质量、复盘

三、工程规范（直接进团队文档）

1）API 规范

统一使用类 OpenAI 格式：/v1/chat/completions
必传参数：request_id、user_id、scene、stream
统一返回结构：code、data、message、usage

2）Prompt 规范

固定结构：角色 + 约束 + 资料 + 格式 + 示例
禁止超长prompt，必须走RAG
禁止动态拼接用户输入无过滤
温度： factual=0.1_{0.3，创意=0.4}0.7

3）RAG 规范

文档分段：200~500 token
召回数量：3~8段
召回策略：向量 + 关键词混合
必加引用来源，减少幻觉

4）部署规范

模型服务容器化（Docker）
外网模型走代理，统一出口IP白名单
流式返回用SSE，不轮询
量化优先：INT4/INT8，降低显存

5）安全规范

用户输入过滤：对抗指令、敏感词、越权请求
输出审核：违规、极限词、越权承诺
关键业务必须人工审核
绝不把业务数据、隐私数据传入公网模型

6）成本规范

相同请求必须缓存
历史对话自动截断
简单请求强制走低成本模型
每日/每月额度硬限制

7）日志规范

必记录：输入、输出、耗时、token、场景、模型
不记录敏感信息（手机号、身份证、密钥）
全链路可追踪

四、上线前必做检查（防崩清单）

超时设置
重试机制
熔断降级
缓存策略
额度限制
敏感词过滤
输出审核
转人工兜底
全链路日志
监控告警

五、一句话总结（最精髓）

大模型应用要做好，就三件事：
架构分层解耦，工程规范稳定，安全护栏兜底。

上一篇：从“爱马仕”到“过街鼠”：Nous Research Hermes Agent 是如何被钉在开源耻辱柱上的

下一篇：Android字体字重设置全攻略：XML黑科技+Kotlin动态实现，告别.ttf臃肿

相关推荐

RenoPit 能为普通业主做什么？看懂图纸、审查合同，提前发现装修坑

javascript·人工智能·ai·开源·github·chrome扩展·open source·edge扩展·firefox扩展

哥不是小萝莉

AI 应用落地：原理、架构与工程实践

LangGraph 主要3 种核心模式

ai·langchain·langgraph

我们把 26 个接口自动化场景接进了 Agent，效果真是没想到！！

agent·ai编程·测试

SpringBoot 集成 DeepSeek 实现 RAG 文档问答

java·spring boot·ai·springai

2026 AI API 定价对比：GPT-5.6 vs Claude Fable 5 vs Opus 5，哪款模型最划算？

人工智能·gpt·ai·chatgpt

【图】一图理解LLM、LangChain、RAG、AI Agent、MCP、token、context、prompt、tool概念

langchain·llm·agent

用方差阈值过滤掉“惰性特征”

python·ai·databook

我读了六个 Coding Agent 的上下文压缩源码，发现网上流传的数据一半是错的

github·agent·claude

RAG 建库：资料是怎么存进去的？

人工智能·agent·ai编程

热门推荐

01如何新建文件夹？电脑新建文件夹的4种方法 022026年7月AI圈大地震：GPT-5.6被政府限制、Claude入驻Slack、Anthropic自研芯片 03GitHub 镜像站点 04国内可直接用、免费额度/永久免费的大模型API清单（含 SiliconFlow、火山、阿里、智谱、百度、Kimi、DeepSeek、DMXAPI 等）05AI科技热点日报 | 2026年07月01日 06AI 编程 IDE 全景解析 2026：Agent 全面接管开发链路 072026 国产 AI 大模型横评：DeepSeek、通义千问、Kimi、文心一言、星火、豆包谁更能打？08微信历史版本含下载地址（ Windows PC | 安卓 | MAC ）及设置微信不更新 09Agnes AI 免费 API 接入指南：文本、生图、生视频，一套接口全免费 102026 年 AI 大模型 & AI 编程工具实战全总结