VLLM历次会议(2024.7)

支持LLama3.1:

量化:

vllm git下的子项目:llm-compressor

CPU offloading

允许跑更大的模型;会变慢些;在CPU-GPU之间有NVLink的机器上,变慢的幅度小。

新增对Medusa(用1个Head并行推出好几个output tokens)和MLP-Speculor(考虑output token的上下文依赖):

相关推荐
laopeng3016 小时前
Spring AI ToolCalling 扩展模型能力边界
java·人工智能·大模型·spring ai
扫地的小何尚9 小时前
NVIDIA cuOpt:GPU加速优化AI微服务详解
人工智能·算法·微服务·ai·架构·gpu
放羊郎18 小时前
OpenCV、YOLO与大模型的区别与关系
人工智能·opencv·yolo·大模型
姚家湾1 天前
MCP 学习笔记(1)
大模型·mcp
素雪风华1 天前
大模型LLMs框架Langchain之工具Tools
langchain·大模型·tools·llms·langchain工具包
喜欢吃豆1 天前
LLaMA-Factory使用实战
人工智能·大模型·json·llama
whltaoin2 天前
《2核2G阿里云神操作!Ubuntu+Ollama低成本部署Deepseek模型实战》
ubuntu·阿里云·大模型·ollama
青花瓷2 天前
office_word中使用宏以及DeepSeek
人工智能·大模型·word·deepseek
magic_ll3 天前
【大模型】数字人 Sonic 的环境配置和使用
大模型
量子位3 天前
蚂蚁国产 GPU 训练大模型细节曝光!Ling 模型研发负责人回应:关于我们抠 FLOPS 的一些点滴
人工智能·gpu