sglang

百度智能云技术站

百度百舸基于昆仑芯 XPU 完成 GLM-4.x 在 SGLang 与 vLLM 上的适配落地近日，百度百舸基于 SGLang 与 vLLM 主流推理框架，成功完成智谱 GLM-4.x 系列语言模型（GLM-4.5 / GLM-4.5-Air / GLM-4.6 / GLM-4.7）在昆仑芯 XPU 平台上的适配与验证。

vLLM、SGLang 融资背后，AI 推理正在走向系统化与治理最近，推理引擎领域出现了两件具有标志意义的事件：vLLM 和 SGLang 相继走向公司化。vLLM 核心团队成立 Inferact，完成 1.5 亿美元融资，估值达 8 亿美元：

马武寨山的猴子

【KTransformers+SGLang】：异构推理架构融合与性能实测全解析期望使用KTransformers的将部分模型加载到内存和cpu上，达到在GPU资源比较匮乏的情况下运行一些超过显存的模型，并且达到一定的token数，可以多人同时使用

SGLang 服务器启动参数完整总结以下根据 SGLang 官方文档整理的服务器启动参数完整列表，按功能分类，提供用途说明和推荐值。📌 注意：以上参数值为推荐值，实际使用中需根据具体硬件、模型和负载进行调整。建议从默认参数开始，逐步优化。

RAGFlow 全面接入 MinerU 2.0，支持 pipeline、vlm-transformers、vlm-sglang 三种模式，解析精度大幅度up在企业级RAG（检索增强生成）落地过程中，“文档解析精度”始终是决定应用效果的核心瓶颈——扫描件的模糊文本识别错误、表格结构还原失真、多模态内容（图文混排）信息丢失，往往导致后续分块、检索环节出现连锁问题，最终影响大模型应答的准确性。作为专注深度文档理解的开源RAG引擎，RAGFlow近期完成重大升级：全面接入MinerU 2.0解析引擎，新增pipeline、vlm-transformers、vlm-sglang三种解析模式，彻底重构文档处理链路，实现复杂格式文档解析精度的跨越式提升。本文将从技术原理、

Embedding 和 Reranker 模型目录1. 理论1.1 Embedding 模型：文字的「数字身份证」1.2 Reranker 模型：结果的「智能排序员」

Llama 3-8B-Instruct 在昇腾 NPU 上的 SGLang 性能实测随着大模型在各类智能应用中的广泛应用，高效的推理硬件成为关键瓶颈。昇腾 NPU（Ascend Neural Processing Unit）凭借其高算力、低能耗以及对 SGLang 的深度优化，能够显著提升大模型推理性能。本文以 Llama 3-8B-Instruct 为例，通过在昇腾 NPU 上的实测，展示其在吞吐量、延迟和资源利用方面的优势，并探索可行的优化策略，为开发者在今后的开发中提供可参考的案例。

CodeLlama与昇腾NPU的实践之旅资源与支持：我最近在GitCode平台发现：可以直接在线体验昇腾NPU的强大算力，并且能够测试最新的开源大模型。这让我想起了一个长期困扰我的问题——在国产芯片上运行先进的代码生成模型究竟表现如何？经过一番调研，我决定选择CodeLlama-7b-Python作为测试对象。这个基于Llama2架构的代码生成模型，支持20多种编程语言，特别擅长Python代码的生成和理解。更重要的是，它在编程社区中备受好评，被认为是目前最实用的开源代码生成模型之一。

实测VLM：昇腾平台上的视觉语言模型测评与优化实践资源与支持：随着多模态大模型的快速发展，视觉语言模型在图像理解、视觉问答、文档分析等场景中的应用日益广泛。vlm-ascend作为专门为昇腾平台优化的视觉语言模型推理框架，旨在充分发挥昇腾硬件的计算潜力。本次性能测评聚焦于经过深度优化的vlm-ascend框架，评估其在昇腾Atlas 800T服务器平台上的实际表现。

在GitCode Notebook环境中实测SGLang：昇腾平台上的结构化生成实践在大语言模型应用日益复杂的今天，传统的串行生成方式已难以满足实际需求。SGLang作为一种新兴的结构化生成框架，通过引入RadixAttention、投机推理等创新技术，为复杂生成任务提供了全新的解决方案。

昇腾Atlas 800T平台下Qwen-14B大语言模型的SGLang适配与性能实测目录摘要引言一、GitCode Notebook 环境配置与 Qwen-14B 模型准备1.1 环境规格确认

SGLang AI 金融 π 对（杭州站）回顾：大模型推理的工程实践全景12 月 20 日，SGLang AI 金融 π 对（杭州站）在杭州紫金港美居酒店成功举办。本次 Meetup 由 SGLang 与 AtomGit 社区联合发起，聚焦大模型在金融与复杂业务场景下的推理效率问题，吸引了大量来自 AI Infra、推理系统、金融科技与系统工程方向的开发者与工程师参与。

SGLang调优：从原理到实践（Ubuntu 22.04 + CUDA 12.6）作者：吴业亮博客：wuyeliang.blog.csdn.netSGLang是面向LLM推理的高性能框架，主打动态对话编排和低延迟高吞吐，核心优化围绕LLM推理的三大瓶颈（KV缓存、内存带宽、算子效率）。本文基于Ubuntu 22.04 + CUDA 12.6 + 最新SGLang，从原理、环境搭建、调优实践到性能验证，全面讲解SGLang调优方法。

K8s部署SGLang：原理到实践（基于Ubuntu 22.04）作者：吴业亮博客：wuyeliang.blog.csdn.net在Ubuntu 22.04上基于Kubernetes部署SGLang是一个系统性的工程，涉及从底层环境准备到上层服务调优的完整链条。下面我将从核心原理、环境搭建、部署实践到进阶优化，为你提供一个全面的指南。

SGLang启动参数详解下面是一个多卡启动的完整命令示例，并简要说明一个关键性能参数的高级用法。以下示例展示了如何在一台机器上使用 2 张 GPU 运行 Llama-3-8B 模型，并进行了关键性能调优：

GPUStack v2：推理加速释放算力潜能，开源重塑大模型推理下半场关注🌟⌈GPUStack⌋ 💻 一起学习 AI、GPU 管理与大模型相关技术实践。2025 年是大模型推理技术发展的关键之年。自年初 DeepSeek R1 发布引发全民关注以来，推理框架加速需求暴涨，推理优化的战场骤然升温。以 vLLM、SGLang、MindIE 为代表的高性能推理引擎，以及 FlashInfer、FlashAttention、ATB 等底层加速库不断突破性能瓶颈，相比年初，部分前沿框架的推理性能提升已达 3 到 4 倍以上。

人工智能训练

在 Ubuntu 系统中利用 conda 创建虚拟环境安装 sglang 大模型引擎的完整步骤、版本查看方法、启动指令及验证方式以下是在 Ubuntu 系统中利用 conda 创建虚拟环境安装 sglang 大模型引擎的完整步骤、版本查看方法、启动指令及验证方式，全程使用清华源加速，并包含关键注意事项：

一如年少模样丶

GPT Server 文档GPT Server是一个用于生产级部署LLMs、Embedding、Reranker、ASR、TTS、文生图、图片编辑和文生视频的开源框架。

新兴ICT项目支撑

2台8卡L20服务器集群推理方案物理连接：2台服务器、每台2张CX4网卡（4个25GbE端口），背靠背直连逻辑配置：每台服务器创建一个bond0接口，聚合所有物理端口链路模式：balance-xor模式，采用layer3+4散列策略 MTU设置：9000字节（巨型帧）提升大包传输效率