技术栈

gpu部署

不爱说话的我
3 小时前
大语言模型·推理优化·gpu部署
SGLang吞吐量提升50%?GPU算力适配优化实战分析你有没有遇到过这种情况?好不容易把一个几十亿参数的大模型部署上线,结果发现并发一高,响应就慢得像蜗牛,GPU算力明明没用满,但吞吐量就是上不去。更头疼的是,很多业务场景不只是简单的问答,比如多轮对话、任务规划、生成结构化数据,这些复杂逻辑写起来麻烦,跑起来效率还低。
我是有底线的