技术栈
sglang
xier_ran
1 天前
缓存
·
sglang
【infra之路】SGLang推理框架_KV缓存复用与Radix_Attention
大语言模型推理时,每一轮生成都会产生 Key-Value 缓存(KV Cache),用于避免重复计算历史 token的注意力。但在多轮对话、少样本学习等场景中,不同请求之间往往存在大量相同的前缀,这些前缀对应的 KV缓存如果各自独立计算,就是纯粹的浪费。SGLang 是一个面向 LLM 的程序化推理框架,它用基数树(RadixTree)统一管理所有请求的 KV 缓存,并配合缓存感知调度策略最大化复用率,从而显著提升推理吞吐。 本文基于 SGLang 的相关技术资料,围绕以下三个问题展开:语言模型程序的定义
一只努力的微服务
3 天前
vllm
·
sglang
vLLM vs SGLang 深度技术对比
这是两个框架最根本的技术差异,决定了各自的适用场景上限。问题背景:传统 LLM 推理需要为每个序列预分配连续的 KV Cache 显存空间,由于序列长度在推理前未知,通常按最大长度预留,导致严重的显存浪费(内部碎片),也限制了同时服务的并发数。
香菜烤面包
13 天前
sglang
SGLang HiCache 原理与部署配置
在大语言模型(LLM)推理中,预填充(Prefill)阶段往往是性能瓶颈:输入序列需先转换为 KV Cache,才能进行后续解码。当多个请求共享相同前缀时,对应的 KV Cache 完全一致,存在大量重复计算。
海天一色y
14 天前
python
·
sglang
SGLang 本地部署 Qwen3-8B 大模型实战指南
随着大语言模型(LLM)技术的快速发展,如何高效地在本地或私有服务器上部署和推理这些模型,已成为 AI 工程实践中的核心议题。相较于传统的 Transformers 推理方案,SGLang 作为一个专为 LLM 和视觉语言模型(VLM)设计的高性能推理框架,凭借其卓越的吞吐量和低延迟特性,正在获得越来越多开发者的青睐。
大模型推理
14 天前
python
·
深度学习
·
sglang
《从 0 实现 SGLang》第 5 篇 · 实现 KV Cache
千行代码,一步步搭出一个现代 LLM 推理引擎,掌握大模型推理的每一项关键技术。上一篇引出无 KV cache 的代价: 每步从头跑整段 forward, 前面位置的 K/V 在下一步又被重算一遍, 带来大量重复计算。
大模型推理
15 天前
sglang
《从 0 实现 SGLang》第 4 篇 · prefill 和 decode 原理
千行代码, 一步步搭出一个现代 LLM 推理引擎, 掌握大模型推理的每一项关键技术。第 3 篇第 8 章用 ~15 行代码跑通了"问 Qwen3 你是谁": tokenize → prefill → decode 循环 → detokenize。流程跑通了, 但代码里有 4 个容易产生疑惑的地方。
日光明媚
20 天前
人工智能
·
计算机视觉
·
aigc
·
音视频
·
sglang
深度解析 SGLang 框架 Wan2.1 视频生成加速技术:从 49 分钟到 1 分钟的极致优化
Wan2.1 作为当前开源视频生成模型的标杆,其 14B 参数版本在生成质量上已经达到了商业级水准,但原生推理速度却令人望而却步:单卡 A800 生成一段 5 秒 720P 视频需要近 50 分钟。
是Yu欸
1 个月前
android
·
数据库
·
大模型
·
github
·
昇腾
·
sglang
·
qwen3
SGLang 推理服务基础性能评测
版权声明:本文为原创,遵循 CC 4.0 BY-SA 协议。转载请注明出处。SGLang 推理服务基础性能评测
lizz31
1 个月前
linux
·
cuda
·
sglang
使用 nsys + gdb 寻找阻塞 API (cuKernelSetAttribute) 并解决
作者注:本文记录了我作为 CUDA 新手,从遇到诡异阻塞,到利用 Nsight Systems 定位,再到通过 GDB 深入理解 API 行为,最终用“预热”优雅解决问题的全过程。
nix.gnehc
2 个月前
llm
·
推理
·
vllm
·
sglang
大模型全流程入门解析——从理论基础到推理落地
大模型的落地并非孤立的“部署”或“推理”,而是一套完整的技术链路:从底层理论架构奠基,到训练框架完成模型训练,再到导出标准化模型文件,最终通过推理框架实现高效落地。本文将以入门视角,拆解“理论→训练→模型文件→推理框架”的核心逻辑、关键细节与关联关系,帮大家理清全流程脉络,避开选型与实操误区,尤其适合刚接触大模型的开发者。
亿风行
2 个月前
大语言模型
·
多轮对话
·
推理优化
·
sglang
实测SGLang的RadixAttention技术,缓存效率飙升
SGLang不是又一个LLM推理框架的简单复刻,而是一次针对真实部署瓶颈的精准手术。当多数框架还在优化单请求延迟时,SGLang把刀锋对准了更隐蔽也更致命的问题:KV缓存的重复计算与内存浪费。尤其在多轮对话、批量API调用、结构化输出等高频场景中,传统注意力机制像一辆不断空转的发动机——算力在反复咀嚼相同的历史token,GPU显存被冗余缓存填满,吞吐量卡在瓶颈线上纹丝不动。
谢白羽
2 个月前
分布式
·
vllm
·
sglang
·
llm-d
多集群/分布式 LLM 推理方案全景:2026 年选型指南
随着 LLM 应用规模不断扩大,单机推理早已无法满足生产需求。本文梳理了当前主流的多集群/分布式 LLM 推理方案,帮助你根据自身场景做出合理选型。
handsomestWei
2 个月前
vllm
·
推理框架
·
kv cache
·
sglang
KV Cache与vLLM、SGLang推理框架
全文链接 KV Cache与vLLM、SGLang推理框架本文介绍 KV Cache 在大模型推理中的地位与资源估算、vLLM 与 SGLang 的异同、二者对 KV Cache 的利用方式、使用策略与首字延迟的关系,以及基于两者部署小模型并进行对话验证的步骤。
一山秋叶
2 个月前
python
·
aigc
·
sglang
wan2.2-i2v-a14b 模型架构
万象是开源的一系列视频生成模型,提出新的时空变分自编码器(VAE)、可扩展的预训练策略、大数据监管、自动化评测指标,提升模型性能和通用性。14B模型在数十亿图片和视频上训练,在数据量和模型大小上都展现出scaling law。覆盖多样下游任务,包括图生视频、指令引导的视频编辑等等,能接受中文。1.3B模型只需要8.19GB VRAM。这里只关注DiT 的模型架构和前向过程。
jieshenai
2 个月前
sglang
本地部署 Qwen3.5-9B:基于 Sglang + Claude Code 的完整实战教程
本文记录如何使用 sglang 在本地部署 Qwen3.5 模型,并配置 Claude Code 进行代码辅助开发。涵盖从命令启动、Docker 部署到常见问题排查的全过程。
OpenAnolis小助手
2 个月前
操作系统
·
龙蜥社区
·
大模型应用
·
mooncake
·
sglang
·
openclaw
极速、稳定、丝滑:OpenClaw 接入 Mooncake 后的性能跃迁
有些性能提升,一眼就能看出来。比如平均延迟更低了,吞吐更高了,首 token 更快了。这样的数字很适合放在 benchmark 表格里,也很适合拿出来做对比。但还有一种性能提升,不是第一眼最炸裂,却更接近真实体验。它不是让系统“最快的时候再快一点”,而是让系统在持续使用、多会话切换、长上下文推进的时候,不那么容易突然卡一下。
柯南小海盗
2 个月前
语言模型
·
vllm
·
sglang
大模型GPU选型与部署资源评估完全指南:从RTX 4090到H20,从vLLM到SGLang
随着大语言模型(LLM)技术的快速落地,硬件选型与资源规划成为企业和开发者落地 AI 应用的核心挑战。本次报告针对当前市场主流的 GPU 型号,对比其在模型训练与推理场景下的差异,同时深入分析主流推理框架 vLLM 与 SGLang 的适用场景,并提供完整的资源评估方法,帮助开发者根据业务需求做出最优决策。
JuckenBoy
3 个月前
linux
·
运维
·
大模型
·
qwen
·
rocky
·
deepseek
·
sglang
Linux环境安装SGLang框架运行自选大模型(以Rocky9.7为例)
以下安装过程本人已验证可行,供君参看:1、安装系统、配置网卡(/root文件夹尽量大一些) 2、装gcc和g++,直接运行gcc --version和g++ --version和有提醒安装 4、禁用nouveau,重建 initramfs 镜像(这一步至关重要,确保引导时加载新配置),重启 echo -e 'blacklist nouveau\noptions nouveau modeset=0' | sudo tee /etc/modprobe.d/blacklist-nouveau.conf sudo