sglang

Yeliang Wu8 天前
调优·sglang·分布式推理
SGLang调优:从原理到实践(Ubuntu 22.04 + CUDA 12.6)作者:吴业亮 博客:wuyeliang.blog.csdn.netSGLang是面向LLM推理的高性能框架,主打动态对话编排和低延迟高吞吐,核心优化围绕LLM推理的三大瓶颈(KV缓存、内存带宽、算子效率)。本文基于Ubuntu 22.04 + CUDA 12.6 + 最新SGLang,从原理、环境搭建、调优实践到性能验证,全面讲解SGLang调优方法。
Yeliang Wu10 天前
kubernetes·sglang
K8s部署SGLang:原理到实践(基于Ubuntu 22.04)作者:吴业亮 博客:wuyeliang.blog.csdn.net在Ubuntu 22.04上基于Kubernetes部署SGLang是一个系统性的工程,涉及从底层环境准备到上层服务调优的完整链条。下面我将从核心原理、环境搭建、部署实践到进阶优化,为你提供一个全面的指南。
破烂pan14 天前
llm·模型部署·sglang
SGLang启动参数详解下面是一个多卡启动的完整命令示例,并简要说明一个关键性能参数的高级用法。以下示例展示了如何在一台机器上使用 2 张 GPU 运行 Llama-3-8B 模型,并进行了关键性能调优:
GPUStack22 天前
大模型·vllm·ai网关·sglang·高性能推理
GPUStack v2:推理加速释放算力潜能,开源重塑大模型推理下半场关注🌟⌈GPUStack⌋ 💻 一起学习 AI、GPU 管理与大模型相关技术实践。2025 年是大模型推理技术发展的关键之年。自年初 DeepSeek R1 发布引发全民关注以来,推理框架加速需求暴涨,推理优化的战场骤然升温。以 vLLM、SGLang、MindIE 为代表的高性能推理引擎,以及 FlashInfer、FlashAttention、ATB 等底层加速库不断突破性能瓶颈,相比年初,部分前沿框架的推理性能提升已达 3 到 4 倍以上。
人工智能训练2 个月前
linux·运维·服务器·人工智能·ubuntu·conda·sglang
在 Ubuntu 系统中利用 conda 创建虚拟环境安装 sglang 大模型引擎的完整步骤、版本查看方法、启动指令及验证方式以下是在 Ubuntu 系统中利用 conda 创建虚拟环境安装 sglang 大模型引擎的完整步骤、版本查看方法、启动指令及验证方式,全程使用清华源加速,并包含关键注意事项:
一如年少模样丶3 个月前
openai·agent·asr·vllm·sglang·lmdeploy·gpt_server
GPT Server 文档GPT Server是一个用于生产级部署LLMs、Embedding、Reranker、ASR、TTS、文生图、图片编辑和文生视频的开源框架。
新兴ICT项目支撑8 个月前
vllm·deepseek r1·sglang·l20·集群推理·roce v2
2台8卡L20服务器集群推理方案物理连接:2台服务器、每台2张CX4网卡(4个25GbE端口),背靠背直连 逻辑配置:每台服务器创建一个bond0接口,聚合所有物理端口 链路模式:balance-xor模式,采用layer3+4散列策略 MTU设置:9000字节(巨型帧)提升大包传输效率
云道轩8 个月前
java·vllm·deepseek·sglang
deepseek为采用JAVA重构模型运营平台vLLM和SGLang指定的计划我在RHEL 上部署vLLM和SGLang,但是经常会报各种不兼容的问题。这说明了Python环境下的应用非常难以部署。如果我想把vLLM和SGLang用JAVA重构,请为我指定一个重构的计划。
engchina9 个月前
sglang
SGLang Router:基于缓存感知负载均衡的数据并行路由实践在大规模语言模型推理场景中,如何高效利用多GPU资源实现数据并行是关键挑战。SGLang Router通过独特的缓存感知负载均衡算法,为多个运行中的SGLang Runtime实例提供智能请求分发。本文将深入解析其核心功能与使用实践,并演示如何将其作为即插即用的OpenAI API替代方案。
engchina10 个月前
sglang·context-length
SGLang中context-length参数的默认值来源解析在使用SGLang工具时,我们可能会遇到关于--context-length参数的设置问题。本文将详细解析SGLang中context-length参数的默认值来源,并结合实际案例进行说明。
我是有底线的