VLLM历次会议(2024.7)

smartcat20102025-02-14 13:19

支持LLama3.1：

量化：

vllm git下的子项目：llm-compressor

CPU offloading

允许跑更大的模型；会变慢些；在CPU-GPU之间有NVLink的机器上，变慢的幅度小。

新增对Medusa（用1个Head并行推出好几个output tokens)和MLP-Speculor(考虑output token的上下文依赖）:

上一篇：HAL库USART中断接收的相关问题

下一篇：九.Spring Boot使用 ShardingSphere + MyBatis + Druid 进行分库分表

热门推荐

01GitHub 镜像站点 02【保姆级教程】免费使用Gemini3的5种方法！免翻墙/国内直连 03BongoCat - 跨平台键盘猫动画工具 04UV安装并设置国内源 05安娜的档案(Anna’s Archive) 镜像网站/国内最新可访问入口（持续更新）06Linux下V2Ray安装配置指南 07Google Antigravity：无法登录？早期错误、登录修复和用户反馈指南 08Labelme从安装到标注：零基础完整指南 09全球最强模型Grok4，国内已可免费使用！（附教程）1046个Nano-banana 精选提示词，持续更新中