技术栈

推理加速

CM莫问
1 个月前
人工智能·算法·语言模型·自然语言处理·大模型·推理加速
<论文>(微软)WINA:用于加速大语言模型推理的权重感知神经元激活本文介绍2025年5月由微软牵头发表的论文《WINA: Weight Informed Neuron Activation for Accelerating Large Language Model Inference》。
亚里随笔
2 个月前
人工智能·架构·大语言模型·rlhf·推理加速
StreamRL:弹性、可扩展、异构的RLHF架构大语言模型(LLMs)的强化学习(RL)训练正处于快速发展阶段,但现有架构存在诸多问题。本文介绍的StreamRL框架为解决这些难题而来,它通过独特设计提升了训练效率和资源利用率,在相关实验中表现优异,想知道它是如何做到的吗?快来一探究竟!
deephub
1 年前
人工智能·pytorch·深度学习·大语言模型·推理加速
LLM推理引擎怎么选?TensorRT vs vLLM vs LMDeploy vs MLC-LLMLLM擅长文本生成应用程序,如聊天和代码完成模型,能够高度理解和流畅。但是它们的大尺寸也给推理带来了挑战。有很多个框架和包可以优化LLM推理和服务,所以在本文中我将整理一些常用的推理引擎并进行比较。