sglang

Lkygo2 天前
人工智能·embedding·vllm·sglang
Embedding 和 Reranker 模型目录1. 理论1.1 Embedding 模型:文字的「数字身份证」1.2 Reranker 模型:结果的「智能排序员」
Token_w11 天前
mysql·llama·sglang
Llama 3-8B-Instruct 在昇腾 NPU 上的 SGLang 性能实测随着大模型在各类智能应用中的广泛应用,高效的推理硬件成为关键瓶颈。昇腾 NPU(Ascend Neural Processing Unit)凭借其高算力、低能耗以及对 SGLang 的深度优化,能够显著提升大模型推理性能。本文以 Llama 3-8B-Instruct 为例,通过在昇腾 NPU 上的实测,展示其在吞吐量、延迟和资源利用方面的优势,并探索可行的优化策略,为开发者在今后的开发中提供可参考的案例。
哈__13 天前
人工智能·gitcode·sglang
CodeLlama与昇腾NPU的实践之旅资源与支持:我最近在GitCode平台发现:可以直接在线体验昇腾NPU的强大算力,并且能够测试最新的开源大模型。这让我想起了一个长期困扰我的问题——在国产芯片上运行先进的代码生成模型究竟表现如何? 经过一番调研,我决定选择CodeLlama-7b-Python作为测试对象。这个基于Llama2架构的代码生成模型,支持20多种编程语言,特别擅长Python代码的生成和理解。更重要的是,它在编程社区中备受好评,被认为是目前最实用的开源代码生成模型之一。
哈__13 天前
人工智能·语言模型·自然语言处理·gitcode·sglang
实测VLM:昇腾平台上的视觉语言模型测评与优化实践资源与支持:随着多模态大模型的快速发展,视觉语言模型在图像理解、视觉问答、文档分析等场景中的应用日益广泛。vlm-ascend作为专门为昇腾平台优化的视觉语言模型推理框架,旨在充分发挥昇腾硬件的计算潜力。本次性能测评聚焦于经过深度优化的vlm-ascend框架,评估其在昇腾Atlas 800T服务器平台上的实际表现。
哈__14 天前
gitcode·sglang
在GitCode Notebook环境中实测SGLang:昇腾平台上的结构化生成实践在大语言模型应用日益复杂的今天,传统的串行生成方式已难以满足实际需求。SGLang作为一种新兴的结构化生成框架,通过引入RadixAttention、投机推理等创新技术,为复杂生成任务提供了全新的解决方案。
Lethehong14 天前
人工智能·语言模型·sglang·昇腾npu
昇腾Atlas 800T平台下Qwen-14B大语言模型的SGLang适配与性能实测目录摘要引言一、GitCode Notebook 环境配置与 Qwen-14B 模型准备1.1 环境规格确认
GitCode官方17 天前
人工智能·金融·sglang
SGLang AI 金融 π 对(杭州站)回顾:大模型推理的工程实践全景12 月 20 日,SGLang AI 金融 π 对(杭州站)在杭州紫金港美居酒店成功举办。本次 Meetup 由 SGLang 与 AtomGit 社区联合发起,聚焦大模型在金融与复杂业务场景下的推理效率问题,吸引了大量来自 AI Infra、推理系统、金融科技与系统工程方向的开发者与工程师参与。
Yeliang Wu1 个月前
调优·sglang·分布式推理
SGLang调优:从原理到实践(Ubuntu 22.04 + CUDA 12.6)作者:吴业亮 博客:wuyeliang.blog.csdn.netSGLang是面向LLM推理的高性能框架,主打动态对话编排和低延迟高吞吐,核心优化围绕LLM推理的三大瓶颈(KV缓存、内存带宽、算子效率)。本文基于Ubuntu 22.04 + CUDA 12.6 + 最新SGLang,从原理、环境搭建、调优实践到性能验证,全面讲解SGLang调优方法。
Yeliang Wu1 个月前
kubernetes·sglang
K8s部署SGLang:原理到实践(基于Ubuntu 22.04)作者:吴业亮 博客:wuyeliang.blog.csdn.net在Ubuntu 22.04上基于Kubernetes部署SGLang是一个系统性的工程,涉及从底层环境准备到上层服务调优的完整链条。下面我将从核心原理、环境搭建、部署实践到进阶优化,为你提供一个全面的指南。
破烂pan1 个月前
llm·模型部署·sglang
SGLang启动参数详解下面是一个多卡启动的完整命令示例,并简要说明一个关键性能参数的高级用法。以下示例展示了如何在一台机器上使用 2 张 GPU 运行 Llama-3-8B 模型,并进行了关键性能调优:
GPUStack1 个月前
大模型·vllm·ai网关·sglang·高性能推理
GPUStack v2:推理加速释放算力潜能,开源重塑大模型推理下半场关注🌟⌈GPUStack⌋ 💻 一起学习 AI、GPU 管理与大模型相关技术实践。2025 年是大模型推理技术发展的关键之年。自年初 DeepSeek R1 发布引发全民关注以来,推理框架加速需求暴涨,推理优化的战场骤然升温。以 vLLM、SGLang、MindIE 为代表的高性能推理引擎,以及 FlashInfer、FlashAttention、ATB 等底层加速库不断突破性能瓶颈,相比年初,部分前沿框架的推理性能提升已达 3 到 4 倍以上。
人工智能训练2 个月前
linux·运维·服务器·人工智能·ubuntu·conda·sglang
在 Ubuntu 系统中利用 conda 创建虚拟环境安装 sglang 大模型引擎的完整步骤、版本查看方法、启动指令及验证方式以下是在 Ubuntu 系统中利用 conda 创建虚拟环境安装 sglang 大模型引擎的完整步骤、版本查看方法、启动指令及验证方式,全程使用清华源加速,并包含关键注意事项:
一如年少模样丶4 个月前
openai·agent·asr·vllm·sglang·lmdeploy·gpt_server
GPT Server 文档GPT Server是一个用于生产级部署LLMs、Embedding、Reranker、ASR、TTS、文生图、图片编辑和文生视频的开源框架。
新兴ICT项目支撑9 个月前
vllm·deepseek r1·sglang·l20·集群推理·roce v2
2台8卡L20服务器集群推理方案物理连接:2台服务器、每台2张CX4网卡(4个25GbE端口),背靠背直连 逻辑配置:每台服务器创建一个bond0接口,聚合所有物理端口 链路模式:balance-xor模式,采用layer3+4散列策略 MTU设置:9000字节(巨型帧)提升大包传输效率
云道轩9 个月前
java·vllm·deepseek·sglang
deepseek为采用JAVA重构模型运营平台vLLM和SGLang指定的计划我在RHEL 上部署vLLM和SGLang,但是经常会报各种不兼容的问题。这说明了Python环境下的应用非常难以部署。如果我想把vLLM和SGLang用JAVA重构,请为我指定一个重构的计划。
engchina10 个月前
sglang
SGLang Router:基于缓存感知负载均衡的数据并行路由实践在大规模语言模型推理场景中,如何高效利用多GPU资源实现数据并行是关键挑战。SGLang Router通过独特的缓存感知负载均衡算法,为多个运行中的SGLang Runtime实例提供智能请求分发。本文将深入解析其核心功能与使用实践,并演示如何将其作为即插即用的OpenAI API替代方案。
engchina10 个月前
sglang·context-length
SGLang中context-length参数的默认值来源解析在使用SGLang工具时,我们可能会遇到关于--context-length参数的设置问题。本文将详细解析SGLang中context-length参数的默认值来源,并结合实际案例进行说明。
我是有底线的