推理加速

小饼干超人

【cs336学习笔记】[第6课]内核优化与Triton框架应用课程内容：当我们拥有A100或H100这类设备时, 会有大量SM流式多处理器, 每个SM内部包含大量计算单元, 我们有FP32或FP64精度的计算单元，每个SM将启动大量线程。

小饼干超人

详解triton.jit及PTX@triton.jit 是 Triton 框架提供的一个装饰器（decorator），用于将 Python 函数编译为高效的 GPU 内核（kernel）。它的核心作用是将可读性高的 Python 代码自动转换为可在 GPU 上并行执行的低级代码，同时保留 Python 的易用性，无需手动编写 CUDA C++ 代码。

HyperAI超神经

【vLLM 学习】Load Sharded StatevLLM 是一款专为大语言模型推理加速而设计的框架，实现了 KV 缓存内存几乎零浪费，解决了内存管理瓶颈问题。

＜论文＞（微软）WINA：用于加速大语言模型推理的权重感知神经元激活本文介绍2025年5月由微软牵头发表的论文《WINA: Weight Informed Neuron Activation for Accelerating Large Language Model Inference》。

StreamRL：弹性、可扩展、异构的RLHF架构大语言模型（LLMs）的强化学习（RL）训练正处于快速发展阶段，但现有架构存在诸多问题。本文介绍的StreamRL框架为解决这些难题而来，它通过独特设计提升了训练效率和资源利用率，在相关实验中表现优异，想知道它是如何做到的吗？快来一探究竟！

LLM推理引擎怎么选？TensorRT vs vLLM vs LMDeploy vs MLC-LLMLLM擅长文本生成应用程序，如聊天和代码完成模型，能够高度理解和流畅。但是它们的大尺寸也给推理带来了挑战。有很多个框架和包可以优化LLM推理和服务，所以在本文中我将整理一些常用的推理引擎并进行比较。

我是有底线的