从实践中提炼的架构设计与工程规范

🤍 前端开发工程师、技术日更博主、已过CET6

🍨 阿珊和她的猫_CSDN博客专家、23年度博客之星前端领域TOP1

🕠 牛客 高级专题作者、打造专栏《前端面试必备》《2024面试高频手撕题》《前端求职突破计划》

🍚 蓝桥云课 签约作者、上架课程《Vue.js 和 Egg.js 开发企业级健康管理项目》《带你从入门到实战全面掌握 uni-app》

文章目录

一、架构设计核心原则(实战版)

  1. 统一入口,不裸调模型

    所有业务 → 网关层 → 模型服务,绝不前端直连第三方API。

  2. 能规则就规则,能检索就检索,最后才大模型

    查询、计算、固定流程 → 用代码/数据库

    知识问答 → RAG

    自然语言生成 → 大模型

  3. 模型与业务解耦

    今天用GPT,明天换文心/通义/Llama,业务代码不动。

  4. 必须有缓存、限流、降级

    缓存扛重复请求,限流防账单爆炸,降级保证服务不死。

  5. 输入必校验,输出必审核

    输入防注入、防恶意prompt;输出防幻觉、违规、越权。

  6. 流式优先,异步兜底

    对话用stream,长任务用异步,不阻塞、体验好。

  7. 多模型路由,动态选择

    简单问题小模型,复杂问题强模型,敏感问题本地模型。

  8. 一切可观测:日志、埋点、监控

    调用量、耗时、token、成本、错误率、幻觉率,全都要看得见。


二、标准分层架构(企业通用)

  1. 接入层

    鉴权、限流、流量管控、协议统一

  2. 业务层

    意图识别、状态管理、流程控制、工具调用

  3. 能力层

    RAG检索、函数调用、插件系统、多模态

  4. 模型调度层

    路由、熔断、重试、负载均衡

  5. 模型适配层

    统一封装OpenAI/文心/通义/Claude/本地模型

  6. 护栏层

    敏感词、越权行为、违规输出、事实校验

  7. 日志与治理层

    审计、成本、质量、复盘


三、工程规范(直接进团队文档)

1)API 规范

  • 统一使用类 OpenAI 格式:/v1/chat/completions
  • 必传参数:request_id、user_id、scene、stream
  • 统一返回结构:code、data、message、usage

2)Prompt 规范

  • 固定结构:角色 + 约束 + 资料 + 格式 + 示例
  • 禁止超长prompt,必须走RAG
  • 禁止动态拼接用户输入无过滤
  • 温度: factual=0.10.3,创意=0.40.7

3)RAG 规范

  • 文档分段:200~500 token
  • 召回数量:3~8段
  • 召回策略:向量 + 关键词混合
  • 必加引用来源,减少幻觉

4)部署规范

  • 模型服务容器化(Docker)
  • 外网模型走代理,统一出口IP白名单
  • 流式返回用SSE,不轮询
  • 量化优先:INT4/INT8,降低显存

5)安全规范

  • 用户输入过滤:对抗指令、敏感词、越权请求
  • 输出审核:违规、极限词、越权承诺
  • 关键业务必须人工审核
  • 绝不把业务数据、隐私数据传入公网模型

6)成本规范

  • 相同请求必须缓存
  • 历史对话自动截断
  • 简单请求强制走低成本模型
  • 每日/每月额度硬限制

7)日志规范

  • 必记录:输入、输出、耗时、token、场景、模型
  • 不记录敏感信息(手机号、身份证、密钥)
  • 全链路可追踪

四、上线前必做检查(防崩清单)

  • 超时设置
  • 重试机制
  • 熔断降级
  • 缓存策略
  • 额度限制
  • 敏感词过滤
  • 输出审核
  • 转人工兜底
  • 全链路日志
  • 监控告警

五、一句话总结(最精髓)

大模型应用要做好,就三件事:
架构分层解耦,工程规范稳定,安全护栏兜底。

相关推荐
用户47949283569152 小时前
把 Claude Code、Codex、Gemini 放进同一个浏览器工作台:Hive 开源了
openai·agent·claude
俊哥V3 小时前
每日 AI 研究简报 · 2026-05-21
人工智能·ai
星球奋斗者3 小时前
深度学习革命
ai·ai发展及热点
王翼鹏4 小时前
利用AI根据设计图开发页面总结
ui·ai
程序员小假5 小时前
我们来说说 Agent 的基础框架是什么?
agent
令狐少侠20116 小时前
使用Qclaw或Workbuddy 安装Codex
ai
冬奇Lab6 小时前
Agent系列(五):意图识别与路由——让 Agent 听懂用户在说什么
人工智能·llm·agent
可信AI Coding6 小时前
AI产业周报|AI安全需求将爆发式增长
人工智能·ai·大模型
卷毛的技术笔记6 小时前
Java后端硬核实战:用Spring AI Alibaba+Redis给LLM装上“超强记忆中枢”
java·人工智能·redis·后端·spring·ai·系统架构
超人也会哭️呀8 小时前
摩尔定律已成过去,韬τ定律引领未来
人工智能·华为·ai·芯片·韬定律·τ定律·摩尔定律