VLLM历次会议(2024.7)

支持LLama3.1:

量化:

vllm git下的子项目:llm-compressor

CPU offloading

允许跑更大的模型;会变慢些;在CPU-GPU之间有NVLink的机器上,变慢的幅度小。

新增对Medusa(用1个Head并行推出好几个output tokens)和MLP-Speculor(考虑output token的上下文依赖):

相关推荐
虎妞050014 小时前
大模型微调实战:LoRA 与 QLoRA 原理精讲
深度学习·lora·大模型·微调·qlora
文艺倾年14 小时前
【强化学习】强化学习基本概念,20W字总结(一)
人工智能·python·语言模型·自然语言处理·面试·职场和发展·大模型
dozenyaoyida15 小时前
AI与大模型新闻日报 | 2026-06-13
人工智能·ai·大模型·新闻
山顶夕景16 小时前
【LLM】On-Policy Distillation Survery
大模型·llm·蒸馏·rlvr·opd·opsd
寒山李白16 小时前
Gemini 2.5 Flash Lite 实效表现与能力边界全景解析
ai·大模型·gemini·评测
撑死胆大的17 小时前
2026开发变局:国标落地后,软件开发彻底换赛道
前端·低代码·ai·大模型
逻极17 小时前
Windows 平台 Ollama AMD GPU 一键编译指南:基于 ROCm 7.1 的自动化实战
人工智能·windows·stm32·自动化·gpu·amd·ollama
万俟淋曦19 小时前
【论文速递】2026年第04周(Jan-18-24)(Robotics/Embodied AI/LLM)
人工智能·ai·机器人·大模型·llm·具身智能·vla
万俟淋曦19 小时前
【论文速递】2026年第03周(Jan-11-17)(Robotics/Embodied AI/LLM)
人工智能·ai·机器人·大模型·论文·robotics·具身智能
小林coding20 小时前
AI大模型八股面试题 ,覆盖Agent、RAG、LLM等面试题(600张图解+25万字答案解析)
大模型·ai大模型·大模型面试题·agent面试题·ai应用开发面试题