推理加速

小饼干超人21 天前
深度学习·大模型·推理加速
【cs336学习笔记】[第6课]内核优化与Triton框架应用课程内容:当我们拥有A100或H100这类设备时, 会有大量SM流式多处理器, 每个SM内部包含大量计算单元, 我们有FP32或FP64精度的计算单元,每个SM将启动大量线程。
小饼干超人22 天前
人工智能·大模型·推理加速
详解triton.jit及PTX@triton.jit 是 Triton 框架提供的一个装饰器(decorator),用于将 Python 函数编译为高效的 GPU 内核(kernel)。它的核心作用是将可读性高的 Python 代码自动转换为可在 GPU 上并行执行的低级代码,同时保留 Python 的易用性,无需手动编写 CUDA C++ 代码。
HyperAI超神经1 个月前
llm·大语言模型·内存管理·vllm·推理加速·kv 缓存·中文文档
【vLLM 学习】Load Sharded StatevLLM 是一款专为大语言模型推理加速而设计的框架,实现了 KV 缓存内存几乎零浪费,解决了内存管理瓶颈问题。
CM莫问3 个月前
人工智能·算法·语言模型·自然语言处理·大模型·推理加速
<论文>(微软)WINA:用于加速大语言模型推理的权重感知神经元激活本文介绍2025年5月由微软牵头发表的论文《WINA: Weight Informed Neuron Activation for Accelerating Large Language Model Inference》。
亚里随笔4 个月前
人工智能·架构·大语言模型·rlhf·推理加速
StreamRL:弹性、可扩展、异构的RLHF架构大语言模型(LLMs)的强化学习(RL)训练正处于快速发展阶段,但现有架构存在诸多问题。本文介绍的StreamRL框架为解决这些难题而来,它通过独特设计提升了训练效率和资源利用率,在相关实验中表现优异,想知道它是如何做到的吗?快来一探究竟!
deephub1 年前
人工智能·pytorch·深度学习·大语言模型·推理加速
LLM推理引擎怎么选?TensorRT vs vLLM vs LMDeploy vs MLC-LLMLLM擅长文本生成应用程序,如聊天和代码完成模型,能够高度理解和流畅。但是它们的大尺寸也给推理带来了挑战。有很多个框架和包可以优化LLM推理和服务,所以在本文中我将整理一些常用的推理引擎并进行比较。
我是有底线的