从实践中提炼的架构设计与工程规范

🤍 前端开发工程师、技术日更博主、已过CET6

🍨 阿珊和她的猫_CSDN博客专家、23年度博客之星前端领域TOP1

🕠 牛客 高级专题作者、打造专栏《前端面试必备》《2024面试高频手撕题》《前端求职突破计划》

🍚 蓝桥云课 签约作者、上架课程《Vue.js 和 Egg.js 开发企业级健康管理项目》《带你从入门到实战全面掌握 uni-app》

文章目录

一、架构设计核心原则(实战版)

  1. 统一入口,不裸调模型

    所有业务 → 网关层 → 模型服务,绝不前端直连第三方API。

  2. 能规则就规则,能检索就检索,最后才大模型

    查询、计算、固定流程 → 用代码/数据库

    知识问答 → RAG

    自然语言生成 → 大模型

  3. 模型与业务解耦

    今天用GPT,明天换文心/通义/Llama,业务代码不动。

  4. 必须有缓存、限流、降级

    缓存扛重复请求,限流防账单爆炸,降级保证服务不死。

  5. 输入必校验,输出必审核

    输入防注入、防恶意prompt;输出防幻觉、违规、越权。

  6. 流式优先,异步兜底

    对话用stream,长任务用异步,不阻塞、体验好。

  7. 多模型路由,动态选择

    简单问题小模型,复杂问题强模型,敏感问题本地模型。

  8. 一切可观测:日志、埋点、监控

    调用量、耗时、token、成本、错误率、幻觉率,全都要看得见。


二、标准分层架构(企业通用)

  1. 接入层

    鉴权、限流、流量管控、协议统一

  2. 业务层

    意图识别、状态管理、流程控制、工具调用

  3. 能力层

    RAG检索、函数调用、插件系统、多模态

  4. 模型调度层

    路由、熔断、重试、负载均衡

  5. 模型适配层

    统一封装OpenAI/文心/通义/Claude/本地模型

  6. 护栏层

    敏感词、越权行为、违规输出、事实校验

  7. 日志与治理层

    审计、成本、质量、复盘


三、工程规范(直接进团队文档)

1)API 规范

  • 统一使用类 OpenAI 格式:/v1/chat/completions
  • 必传参数:request_id、user_id、scene、stream
  • 统一返回结构:code、data、message、usage

2)Prompt 规范

  • 固定结构:角色 + 约束 + 资料 + 格式 + 示例
  • 禁止超长prompt,必须走RAG
  • 禁止动态拼接用户输入无过滤
  • 温度: factual=0.10.3,创意=0.40.7

3)RAG 规范

  • 文档分段:200~500 token
  • 召回数量:3~8段
  • 召回策略:向量 + 关键词混合
  • 必加引用来源,减少幻觉

4)部署规范

  • 模型服务容器化(Docker)
  • 外网模型走代理,统一出口IP白名单
  • 流式返回用SSE,不轮询
  • 量化优先:INT4/INT8,降低显存

5)安全规范

  • 用户输入过滤:对抗指令、敏感词、越权请求
  • 输出审核:违规、极限词、越权承诺
  • 关键业务必须人工审核
  • 绝不把业务数据、隐私数据传入公网模型

6)成本规范

  • 相同请求必须缓存
  • 历史对话自动截断
  • 简单请求强制走低成本模型
  • 每日/每月额度硬限制

7)日志规范

  • 必记录:输入、输出、耗时、token、场景、模型
  • 不记录敏感信息(手机号、身份证、密钥)
  • 全链路可追踪

四、上线前必做检查(防崩清单)

  • 超时设置
  • 重试机制
  • 熔断降级
  • 缓存策略
  • 额度限制
  • 敏感词过滤
  • 输出审核
  • 转人工兜底
  • 全链路日志
  • 监控告警

五、一句话总结(最精髓)

大模型应用要做好,就三件事:
架构分层解耦,工程规范稳定,安全护栏兜底。

相关推荐
冬奇Lab20 小时前
Agent 系列(21):Harness 测试工程——45 个测试怎么设计,以及它发现了什么 bug
人工智能·llm·agent
大树881 天前
金刚石散热越强,管路越先见顶
大数据·运维·服务器·人工智能·ai
施小赞1 天前
普通 RAG vs GraphRAG 核心对比
人工智能·ai
weiwin1231 天前
MAF 入门(5):多 Agent 编排全解
人工智能·agent
goldenrolan1 天前
A公司物料替代测试系统 v1.7:从需求到 exe/apk 的 AI 辅助全链路实践
android·自动化测试·软件测试·python·ai
gis分享者1 天前
GPT-Image-2 图像生成模型新手实战指南
gpt·ai·image·模型·图像生成
ofoxcoding1 天前
在AI API聚合平台配置DeepSeek V3.2提示词缓存实战:快速接入与成本优化指南
人工智能·spring·缓存·ai
DigitalOcean1 天前
砍掉 60% AI 推理成本:深度解构 DigitalOcean 推理路由器的 MoE 门控与智能分流机制
llm·aigc·agent
m0_634666731 天前
Anthropic Fable/Mythos 被紧急暂停:前沿模型商业化开始碰到真正的政策墙
人工智能·ai·ai编程
Vergelight1 天前
实战拆解|三类RAG架构差异:朴素、进阶、多轮RAG落地选型指南
架构·大模型·aigc·agent·ai产品经理·转行·ai后台设计