sglang

handsomestWei3 天前
vllm·推理框架·kv cache·sglang
KV Cache与vLLM、SGLang推理框架全文链接 KV Cache与vLLM、SGLang推理框架本文介绍 KV Cache 在大模型推理中的地位与资源估算、vLLM 与 SGLang 的异同、二者对 KV Cache 的利用方式、使用策略与首字延迟的关系,以及基于两者部署小模型并进行对话验证的步骤。
一山秋叶5 天前
python·aigc·sglang
wan2.2-i2v-a14b 模型架构万象是开源的一系列视频生成模型,提出新的时空变分自编码器(VAE)、可扩展的预训练策略、大数据监管、自动化评测指标,提升模型性能和通用性。14B模型在数十亿图片和视频上训练,在数据量和模型大小上都展现出scaling law。覆盖多样下游任务,包括图生视频、指令引导的视频编辑等等,能接受中文。1.3B模型只需要8.19GB VRAM。这里只关注DiT 的模型架构和前向过程。
jieshenai12 天前
sglang
本地部署 Qwen3.5-9B:基于 Sglang + Claude Code 的完整实战教程本文记录如何使用 sglang 在本地部署 Qwen3.5 模型,并配置 Claude Code 进行代码辅助开发。涵盖从命令启动、Docker 部署到常见问题排查的全过程。
OpenAnolis小助手13 天前
操作系统·龙蜥社区·大模型应用·mooncake·sglang·openclaw
极速、稳定、丝滑:OpenClaw 接入 Mooncake 后的性能跃迁有些性能提升,一眼就能看出来。比如平均延迟更低了,吞吐更高了,首 token 更快了。这样的数字很适合放在 benchmark 表格里,也很适合拿出来做对比。但还有一种性能提升,不是第一眼最炸裂,却更接近真实体验。它不是让系统“最快的时候再快一点”,而是让系统在持续使用、多会话切换、长上下文推进的时候,不那么容易突然卡一下。
柯南小海盗14 天前
语言模型·vllm·sglang
大模型GPU选型与部署资源评估完全指南:从RTX 4090到H20,从vLLM到SGLang随着大语言模型(LLM)技术的快速落地,硬件选型与资源规划成为企业和开发者落地 AI 应用的核心挑战。本次报告针对当前市场主流的 GPU 型号,对比其在模型训练与推理场景下的差异,同时深入分析主流推理框架 vLLM 与 SGLang 的适用场景,并提供完整的资源评估方法,帮助开发者根据业务需求做出最优决策。
JuckenBoy20 天前
linux·运维·大模型·qwen·rocky·deepseek·sglang
Linux环境安装SGLang框架运行自选大模型(以Rocky9.7为例)以下安装过程本人已验证可行,供君参看:1、安装系统、配置网卡(/root文件夹尽量大一些) 2、装gcc和g++,直接运行gcc --version和g++ --version和有提醒安装 4、禁用nouveau,重建 initramfs 镜像(这一步至关重要,确保引导时加载新配置),重启 echo -e 'blacklist nouveau\noptions nouveau modeset=0' | sudo tee /etc/modprobe.d/blacklist-nouveau.conf sudo
百度智能云技术站2 个月前
百度·开源·vllm·百度百舸·sglang
百度百舸基于昆仑芯 XPU 完成 GLM-4.x 在 SGLang 与 vLLM 上的适配落地近日,百度百舸基于 SGLang 与 vLLM 主流推理框架,成功完成智谱 GLM-4.x 系列语言模型(GLM-4.5 / GLM-4.5-Air / GLM-4.6 / GLM-4.7)在昆仑芯 XPU 平台上的适配与验证。
GPUStack2 个月前
大模型·llm·vllm·模型推理·sglang·高性能推理
vLLM、SGLang 融资背后,AI 推理正在走向系统化与治理最近,推理引擎领域出现了两件具有标志意义的事件:vLLM 和 SGLang 相继走向公司化。vLLM 核心团队成立 Inferact,完成 1.5 亿美元融资,估值达 8 亿美元:
马武寨山的猴子2 个月前
架构·transformer·moe·ktransformers·sglang
【KTransformers+SGLang】:异构推理架构融合与性能实测全解析期望使用KTransformers的将部分模型加载到内存和cpu上,达到在GPU资源比较匮乏的情况下运行一些超过显存的模型,并且达到一定的token数,可以多人同时使用
破烂pan3 个月前
运维·服务器·sglang
SGLang 服务器启动参数完整总结以下根据 SGLang 官方文档 整理的服务器启动参数完整列表,按功能分类,提供用途说明和推荐值。📌 注意:以上参数值为推荐值,实际使用中需根据具体硬件、模型和负载进行调整。建议从默认参数开始,逐步优化。
no24544103 个月前
java·大数据·人工智能·python·ai·sglang
RAGFlow 全面接入 MinerU 2.0,支持 pipeline、vlm-transformers、vlm-sglang 三种模式,解析精度大幅度up在企业级RAG(检索增强生成)落地过程中,“文档解析精度”始终是决定应用效果的核心瓶颈——扫描件的模糊文本识别错误、表格结构还原失真、多模态内容(图文混排)信息丢失,往往导致后续分块、检索环节出现连锁问题,最终影响大模型应答的准确性。作为专注深度文档理解的开源RAG引擎,RAGFlow近期完成重大升级:全面接入MinerU 2.0解析引擎,新增pipeline、vlm-transformers、vlm-sglang三种解析模式,彻底重构文档处理链路,实现复杂格式文档解析精度的跨越式提升。本文将从技术原理、
Lkygo3 个月前
人工智能·embedding·vllm·sglang
Embedding 和 Reranker 模型目录1. 理论1.1 Embedding 模型:文字的「数字身份证」1.2 Reranker 模型:结果的「智能排序员」
Token_w3 个月前
mysql·llama·sglang
Llama 3-8B-Instruct 在昇腾 NPU 上的 SGLang 性能实测随着大模型在各类智能应用中的广泛应用,高效的推理硬件成为关键瓶颈。昇腾 NPU(Ascend Neural Processing Unit)凭借其高算力、低能耗以及对 SGLang 的深度优化,能够显著提升大模型推理性能。本文以 Llama 3-8B-Instruct 为例,通过在昇腾 NPU 上的实测,展示其在吞吐量、延迟和资源利用方面的优势,并探索可行的优化策略,为开发者在今后的开发中提供可参考的案例。
哈__3 个月前
人工智能·gitcode·sglang
CodeLlama与昇腾NPU的实践之旅资源与支持:我最近在GitCode平台发现:可以直接在线体验昇腾NPU的强大算力,并且能够测试最新的开源大模型。这让我想起了一个长期困扰我的问题——在国产芯片上运行先进的代码生成模型究竟表现如何? 经过一番调研,我决定选择CodeLlama-7b-Python作为测试对象。这个基于Llama2架构的代码生成模型,支持20多种编程语言,特别擅长Python代码的生成和理解。更重要的是,它在编程社区中备受好评,被认为是目前最实用的开源代码生成模型之一。
哈__3 个月前
人工智能·语言模型·自然语言处理·gitcode·sglang
实测VLM:昇腾平台上的视觉语言模型测评与优化实践资源与支持:随着多模态大模型的快速发展,视觉语言模型在图像理解、视觉问答、文档分析等场景中的应用日益广泛。vlm-ascend作为专门为昇腾平台优化的视觉语言模型推理框架,旨在充分发挥昇腾硬件的计算潜力。本次性能测评聚焦于经过深度优化的vlm-ascend框架,评估其在昇腾Atlas 800T服务器平台上的实际表现。
哈__3 个月前
gitcode·sglang
在GitCode Notebook环境中实测SGLang:昇腾平台上的结构化生成实践在大语言模型应用日益复杂的今天,传统的串行生成方式已难以满足实际需求。SGLang作为一种新兴的结构化生成框架,通过引入RadixAttention、投机推理等创新技术,为复杂生成任务提供了全新的解决方案。
Lethehong3 个月前
人工智能·语言模型·sglang·昇腾npu
昇腾Atlas 800T平台下Qwen-14B大语言模型的SGLang适配与性能实测目录摘要引言一、GitCode Notebook 环境配置与 Qwen-14B 模型准备1.1 环境规格确认
GitCode官方4 个月前
人工智能·金融·sglang
SGLang AI 金融 π 对(杭州站)回顾:大模型推理的工程实践全景12 月 20 日,SGLang AI 金融 π 对(杭州站)在杭州紫金港美居酒店成功举办。本次 Meetup 由 SGLang 与 AtomGit 社区联合发起,聚焦大模型在金融与复杂业务场景下的推理效率问题,吸引了大量来自 AI Infra、推理系统、金融科技与系统工程方向的开发者与工程师参与。
Yeliang Wu4 个月前
调优·sglang·分布式推理
SGLang调优:从原理到实践(Ubuntu 22.04 + CUDA 12.6)作者:吴业亮 博客:wuyeliang.blog.csdn.netSGLang是面向LLM推理的高性能框架,主打动态对话编排和低延迟高吞吐,核心优化围绕LLM推理的三大瓶颈(KV缓存、内存带宽、算子效率)。本文基于Ubuntu 22.04 + CUDA 12.6 + 最新SGLang,从原理、环境搭建、调优实践到性能验证,全面讲解SGLang调优方法。
Yeliang Wu4 个月前
kubernetes·sglang
K8s部署SGLang:原理到实践(基于Ubuntu 22.04)作者:吴业亮 博客:wuyeliang.blog.csdn.net在Ubuntu 22.04上基于Kubernetes部署SGLang是一个系统性的工程,涉及从底层环境准备到上层服务调优的完整链条。下面我将从核心原理、环境搭建、部署实践到进阶优化,为你提供一个全面的指南。