技术栈

分布式推理

Yeliang Wu
9 天前
调优·sglang·分布式推理
SGLang调优:从原理到实践(Ubuntu 22.04 + CUDA 12.6)作者:吴业亮 博客:wuyeliang.blog.csdn.netSGLang是面向LLM推理的高性能框架,主打动态对话编排和低延迟高吞吐,核心优化围绕LLM推理的三大瓶颈(KV缓存、内存带宽、算子效率)。本文基于Ubuntu 22.04 + CUDA 12.6 + 最新SGLang,从原理、环境搭建、调优实践到性能验证,全面讲解SGLang调优方法。
GPUStack
3 个月前
大模型·llm·昇腾·npu·分布式推理
昇腾多机推理极速上手:10倍简化的 DeepSeek R1 超大规模模型部署在昇腾 NPU 上部署超大规模模型,往往面临一个现实难题:目前主流的官方推理引擎 MindIE 的多机分布式推理虽然性能表现尚可,但配置流程异常复杂。从环境准备、配置初始化到参数细节调整,每一步都需要格外谨慎,否则极易因细节遗漏或配置错误而导致部署失败,问题定位也十分困难。
我是有底线的