推理引擎

长路 ㅤ   8 天前
模型部署·vllm·xinference·推理引擎·ai框架
快速了解VLLM推理引擎博主介绍:✌目前全网粉丝4W+,csdn博客专家、Java领域优质创作者,博客之星、阿里云平台优质作者、专注于Java后端技术领域。
dawdo22218 天前
llm·transformer·性能调优·推理引擎·xllm·模型执行器
自己动手从头开始编写LLM推理引擎(12)-xLLM的整体调优大型语言模型(LLM)推理系统的性能调优是一个复杂而关键的过程,涉及到系统架构、算法实现、资源管理等多个方面。xLLM作为一个高性能的LLM推理框架,通过一系列精心设计的优化措施,实现了显著的性能提升。本文将全面总结xLLM的整体调优过程,包括模型执行器、调度器、采样器等核心组件的优化策略,以及性能测试和监控分析结果。
dawdo22219 天前
llm·transformer·性能测试·qwen·benchmark·推理引擎
自己动手从头开始编写LLM推理引擎(11)-xLLM的benchmark实现在大型语言模型(LLM)推理系统中,性能评估是确保系统稳定性和效率的关键环节。xLLM提供了一个功能完善的基准测试工具(benchmark),用于全面评估系统在不同负载条件下的性能表现。本文将详细介绍xLLM benchmark工具的设计理念、核心实现、测试策略和性能分析方法,帮助开发者深入理解LLM推理系统的性能评估方法。
dawdo2222 个月前
llm·推理引擎·xllm·tokenizer管理器
自己动手从头开始编写LLM推理引擎(3)在前两篇文章中,我们分别搭建了一个Demo推理引擎,并设计了自研的xLLM推理引擎架构。在Demo阶段,我们使用了简单的PD(Prompt Engineering + Decoding)分离架构,将提示工程和解码过程分离。然而,当我们从Demo走向生产级系统时,需要一个更加完善的Tokenizer管理器来处理复杂的推理场景。本文将深入介绍Tokenizer管理器的设计与实现,解释为什么需要专门的Tokenizer管理器,实现的原则和要点,并结合实际代码展示最佳实践。
deepdata_cn6 个月前
人工智能·推理引擎
开源本地LLM推理引擎(Cortex AI)Cortex AI是一款开源本地LLM推理引擎,核心定位是“降低大模型部署门槛”,通过整合多类推理框架、兼容主流API标准,让开发者在本地设备(CPU/GPU)或边缘环境中快速运行大语言模型(包括DBRX、Mixtral等MoE架构模型),无需依赖复杂的集群资源。
✦昨夜星辰✦1 年前
人工智能·系统架构·triton·推理引擎·tensorrt-llm
Triton Inference Server 架构原理上篇文章进行了 TensorRT-LLM & Triton Server 部署 ,本篇简单讲讲 Triton Inference Server 的架构原理,便于大家更好的做配置和开发。
我是有底线的