VLLM历次会议(2024.7)

支持LLama3.1:

量化:

vllm git下的子项目:llm-compressor

CPU offloading

允许跑更大的模型;会变慢些;在CPU-GPU之间有NVLink的机器上,变慢的幅度小。

新增对Medusa(用1个Head并行推出好几个output tokens)和MLP-Speculor(考虑output token的上下文依赖):

相关推荐
翔云1234567 小时前
大模型训练框架全景解析(2026最新)
ai·大模型
不懒不懒7 小时前
【从零入门本地大模型:Ollama 安装部署 + Qwen2.5 实现零样本情感分类】
人工智能·分类·数据挖掘·大模型·ollama
翔云1234567 小时前
大模型部署全流程深度解析
人工智能·ai·大模型
码点滴8 小时前
DeepSeek-V4 全景地图:两款模型、三种模式,你该怎么选?
人工智能·架构·大模型·deepseek-v4
翔云1234568 小时前
vLLM 全部8种部署方式(按从简单到企业级排序,附适用场景+最简命令)
人工智能·ai·大模型
DogDaoDao10 小时前
【GitHub】OpenClaw:开源个人AI助手的新标杆
人工智能·深度学习·开源·大模型·github·ai编程·opeclaw
m0_629494731 天前
LangGraph 构建AI Agent智能体
人工智能·大模型·langgraph
刘大猫.1 天前
宝马发布全新AI智能座舱助手 能理解用户复杂出行需求
人工智能·算法·机器学习·ai·大模型·算力·ai智能座舱助手