本节是线上运维核心,面试高频考点,全部是工业落地必备知识。
一、监控
1. 定义
持续采集服务运行状态数据,实时观察服务是否正常。
2. 大模型服务核心监控指标(必记)
- 硬件指标:GPU 使用率、显存占用、CPU、内存
- 业务指标:接口响应耗时、请求量、报错率、并发数
3. 作用
提前发现卡顿、显存溢出、接口报错等问题,做到故障预警。
二、日志
1. 定义
把请求内容、模型返回结果、报错信息、操作记录持久化保存。
2. 作用
- 线上出问题后,根据日志回溯原因、定位 bug;
- 统计用户提问、分析使用场景,为后续模型迭代提供数据。
三、限流
1. 定义
限制单位时间内的请求数量,防止大量请求瞬间涌入压垮服务。
2. 场景举例
突发流量、恶意刷请求、活动高峰,都会导致服务崩溃,限流就是 "设置准入门槛"。
3. 常见算法:令牌桶(入门了解即可)
系统按固定速率发放令牌,请求必须拿到令牌才能被处理;令牌耗尽,新请求直接拒绝 / 排队。
四、成本管控
大模型算力是主要开销,常用优化手段:
- 模型层面:使用 4bit/8bit 量化 降低显存占用,选用合适参数量模型(如 7B);
- 算力层面:云服务器按需计费,闲置时关机,不长期占用高配置机器;
- 调度层面:请求低谷期缩减资源,高峰期扩容,资源弹性调度。
五、版本管理 + 灰度发布
- 版本管理 对模型、代码、配置做版本标记,每一次迭代都留存版本记录。一旦新版出问题,可以快速版本回滚,切回稳定旧版本。
- 灰度发布(结合前面讲解巩固) 分批放量上线新版本:小流量验证 → 逐步扩量 → 全量上线。 核心价值:控制上线风险,避免故障影响全部用户。
六、整体串联(面试简答模板)
问:如何保障大模型线上服务稳定运行? 答:搭配监控 + 日志 实时观测状态、排查问题;通过限流 抵御突发高并发;使用版本管理 + 灰度发布 降低迭代风险;配合量化、弹性算力做好成本管控。