sglang

是Yu欸2 天前
android·数据库·大模型·github·昇腾·sglang·qwen3
SGLang 推理服务基础性能评测版权声明:本文为原创,遵循 CC 4.0 BY-SA 协议。转载请注明出处。SGLang 推理服务基础性能评测
lizz314 天前
linux·cuda·sglang
使用 nsys + gdb 寻找阻塞 API (cuKernelSetAttribute) 并解决作者注:本文记录了我作为 CUDA 新手,从遇到诡异阻塞,到利用 Nsight Systems 定位,再到通过 GDB 深入理解 API 行为,最终用“预热”优雅解决问题的全过程。
nix.gnehc11 天前
llm·推理·vllm·sglang
大模型全流程入门解析——从理论基础到推理落地大模型的落地并非孤立的“部署”或“推理”,而是一套完整的技术链路:从底层理论架构奠基,到训练框架完成模型训练,再到导出标准化模型文件,最终通过推理框架实现高效落地。本文将以入门视角,拆解“理论→训练→模型文件→推理框架”的核心逻辑、关键细节与关联关系,帮大家理清全流程脉络,避开选型与实操误区,尤其适合刚接触大模型的开发者。
亿风行13 天前
大语言模型·多轮对话·推理优化·sglang
实测SGLang的RadixAttention技术,缓存效率飙升SGLang不是又一个LLM推理框架的简单复刻,而是一次针对真实部署瓶颈的精准手术。当多数框架还在优化单请求延迟时,SGLang把刀锋对准了更隐蔽也更致命的问题:KV缓存的重复计算与内存浪费。尤其在多轮对话、批量API调用、结构化输出等高频场景中,传统注意力机制像一辆不断空转的发动机——算力在反复咀嚼相同的历史token,GPU显存被冗余缓存填满,吞吐量卡在瓶颈线上纹丝不动。
谢白羽20 天前
分布式·vllm·sglang·llm-d
多集群/分布式 LLM 推理方案全景:2026 年选型指南随着 LLM 应用规模不断扩大,单机推理早已无法满足生产需求。本文梳理了当前主流的多集群/分布式 LLM 推理方案,帮助你根据自身场景做出合理选型。
handsomestWei24 天前
vllm·推理框架·kv cache·sglang
KV Cache与vLLM、SGLang推理框架全文链接 KV Cache与vLLM、SGLang推理框架本文介绍 KV Cache 在大模型推理中的地位与资源估算、vLLM 与 SGLang 的异同、二者对 KV Cache 的利用方式、使用策略与首字延迟的关系,以及基于两者部署小模型并进行对话验证的步骤。
一山秋叶25 天前
python·aigc·sglang
wan2.2-i2v-a14b 模型架构万象是开源的一系列视频生成模型,提出新的时空变分自编码器(VAE)、可扩展的预训练策略、大数据监管、自动化评测指标,提升模型性能和通用性。14B模型在数十亿图片和视频上训练,在数据量和模型大小上都展现出scaling law。覆盖多样下游任务,包括图生视频、指令引导的视频编辑等等,能接受中文。1.3B模型只需要8.19GB VRAM。这里只关注DiT 的模型架构和前向过程。
jieshenai1 个月前
sglang
本地部署 Qwen3.5-9B:基于 Sglang + Claude Code 的完整实战教程本文记录如何使用 sglang 在本地部署 Qwen3.5 模型,并配置 Claude Code 进行代码辅助开发。涵盖从命令启动、Docker 部署到常见问题排查的全过程。
OpenAnolis小助手1 个月前
操作系统·龙蜥社区·大模型应用·mooncake·sglang·openclaw
极速、稳定、丝滑:OpenClaw 接入 Mooncake 后的性能跃迁有些性能提升,一眼就能看出来。比如平均延迟更低了,吞吐更高了,首 token 更快了。这样的数字很适合放在 benchmark 表格里,也很适合拿出来做对比。但还有一种性能提升,不是第一眼最炸裂,却更接近真实体验。它不是让系统“最快的时候再快一点”,而是让系统在持续使用、多会话切换、长上下文推进的时候,不那么容易突然卡一下。
柯南小海盗1 个月前
语言模型·vllm·sglang
大模型GPU选型与部署资源评估完全指南:从RTX 4090到H20,从vLLM到SGLang随着大语言模型(LLM)技术的快速落地,硬件选型与资源规划成为企业和开发者落地 AI 应用的核心挑战。本次报告针对当前市场主流的 GPU 型号,对比其在模型训练与推理场景下的差异,同时深入分析主流推理框架 vLLM 与 SGLang 的适用场景,并提供完整的资源评估方法,帮助开发者根据业务需求做出最优决策。
JuckenBoy1 个月前
linux·运维·大模型·qwen·rocky·deepseek·sglang
Linux环境安装SGLang框架运行自选大模型(以Rocky9.7为例)以下安装过程本人已验证可行,供君参看:1、安装系统、配置网卡(/root文件夹尽量大一些) 2、装gcc和g++,直接运行gcc --version和g++ --version和有提醒安装 4、禁用nouveau,重建 initramfs 镜像(这一步至关重要,确保引导时加载新配置),重启 echo -e 'blacklist nouveau\noptions nouveau modeset=0' | sudo tee /etc/modprobe.d/blacklist-nouveau.conf sudo
百度智能云技术站3 个月前
百度·开源·vllm·百度百舸·sglang
百度百舸基于昆仑芯 XPU 完成 GLM-4.x 在 SGLang 与 vLLM 上的适配落地近日,百度百舸基于 SGLang 与 vLLM 主流推理框架,成功完成智谱 GLM-4.x 系列语言模型(GLM-4.5 / GLM-4.5-Air / GLM-4.6 / GLM-4.7)在昆仑芯 XPU 平台上的适配与验证。
GPUStack3 个月前
大模型·llm·vllm·模型推理·sglang·高性能推理
vLLM、SGLang 融资背后,AI 推理正在走向系统化与治理最近,推理引擎领域出现了两件具有标志意义的事件:vLLM 和 SGLang 相继走向公司化。vLLM 核心团队成立 Inferact,完成 1.5 亿美元融资,估值达 8 亿美元:
马武寨山的猴子3 个月前
架构·transformer·moe·ktransformers·sglang
【KTransformers+SGLang】:异构推理架构融合与性能实测全解析期望使用KTransformers的将部分模型加载到内存和cpu上,达到在GPU资源比较匮乏的情况下运行一些超过显存的模型,并且达到一定的token数,可以多人同时使用
破烂pan3 个月前
运维·服务器·sglang
SGLang 服务器启动参数完整总结以下根据 SGLang 官方文档 整理的服务器启动参数完整列表,按功能分类,提供用途说明和推荐值。📌 注意:以上参数值为推荐值,实际使用中需根据具体硬件、模型和负载进行调整。建议从默认参数开始,逐步优化。
no24544103 个月前
java·大数据·人工智能·python·ai·sglang
RAGFlow 全面接入 MinerU 2.0,支持 pipeline、vlm-transformers、vlm-sglang 三种模式,解析精度大幅度up在企业级RAG(检索增强生成)落地过程中,“文档解析精度”始终是决定应用效果的核心瓶颈——扫描件的模糊文本识别错误、表格结构还原失真、多模态内容(图文混排)信息丢失,往往导致后续分块、检索环节出现连锁问题,最终影响大模型应答的准确性。作为专注深度文档理解的开源RAG引擎,RAGFlow近期完成重大升级:全面接入MinerU 2.0解析引擎,新增pipeline、vlm-transformers、vlm-sglang三种解析模式,彻底重构文档处理链路,实现复杂格式文档解析精度的跨越式提升。本文将从技术原理、
Lkygo4 个月前
人工智能·embedding·vllm·sglang
Embedding 和 Reranker 模型目录1. 理论1.1 Embedding 模型:文字的「数字身份证」1.2 Reranker 模型:结果的「智能排序员」
Token_w4 个月前
mysql·llama·sglang
Llama 3-8B-Instruct 在昇腾 NPU 上的 SGLang 性能实测随着大模型在各类智能应用中的广泛应用,高效的推理硬件成为关键瓶颈。昇腾 NPU(Ascend Neural Processing Unit)凭借其高算力、低能耗以及对 SGLang 的深度优化,能够显著提升大模型推理性能。本文以 Llama 3-8B-Instruct 为例,通过在昇腾 NPU 上的实测,展示其在吞吐量、延迟和资源利用方面的优势,并探索可行的优化策略,为开发者在今后的开发中提供可参考的案例。
哈__4 个月前
人工智能·gitcode·sglang
CodeLlama与昇腾NPU的实践之旅资源与支持:我最近在GitCode平台发现:可以直接在线体验昇腾NPU的强大算力,并且能够测试最新的开源大模型。这让我想起了一个长期困扰我的问题——在国产芯片上运行先进的代码生成模型究竟表现如何? 经过一番调研,我决定选择CodeLlama-7b-Python作为测试对象。这个基于Llama2架构的代码生成模型,支持20多种编程语言,特别擅长Python代码的生成和理解。更重要的是,它在编程社区中备受好评,被认为是目前最实用的开源代码生成模型之一。
哈__4 个月前
人工智能·语言模型·自然语言处理·gitcode·sglang
实测VLM:昇腾平台上的视觉语言模型测评与优化实践资源与支持:随着多模态大模型的快速发展,视觉语言模型在图像理解、视觉问答、文档分析等场景中的应用日益广泛。vlm-ascend作为专门为昇腾平台优化的视觉语言模型推理框架,旨在充分发挥昇腾硬件的计算潜力。本次性能测评聚焦于经过深度优化的vlm-ascend框架,评估其在昇腾Atlas 800T服务器平台上的实际表现。