xllm

自己动手从头开始编写LLM推理引擎(12)-xLLM的整体调优大型语言模型（LLM）推理系统的性能调优是一个复杂而关键的过程，涉及到系统架构、算法实现、资源管理等多个方面。xLLM作为一个高性能的LLM推理框架，通过一系列精心设计的优化措施，实现了显著的性能提升。本文将全面总结xLLM的整体调优过程，包括模型执行器、调度器、采样器等核心组件的优化策略，以及性能测试和监控分析结果。

自己动手从头开始编写LLM推理引擎(3)在前两篇文章中，我们分别搭建了一个Demo推理引擎，并设计了自研的xLLM推理引擎架构。在Demo阶段，我们使用了简单的PD（Prompt Engineering + Decoding）分离架构，将提示工程和解码过程分离。然而，当我们从Demo走向生产级系统时，需要一个更加完善的Tokenizer管理器来处理复杂的推理场景。本文将深入介绍Tokenizer管理器的设计与实现，解释为什么需要专门的Tokenizer管理器，实现的原则和要点，并结合实际代码展示最佳实践。

做难而正确的 AI Infra 创新——专访国产大模型推理引擎 xLLM 社区负责人刘童璇在 DeepSeek 等国产大模型加速普及的今天，AI 基础设施（AI Infra）如同数字时代的“水电煤”。然而，长期以来，这一领域的核心技术被 vLLM、TensorRT-LLM 等海外框架牢牢占据。随着一支年轻团队打造的 xLLM 在今年 8 月底出世，这一局面正悄然改变。

我是有底线的