VLLM历次会议(2024.7)

支持LLama3.1:

量化:

vllm git下的子项目:llm-compressor

CPU offloading

允许跑更大的模型;会变慢些;在CPU-GPU之间有NVLink的机器上,变慢的幅度小。

新增对Medusa(用1个Head并行推出好几个output tokens)和MLP-Speculor(考虑output token的上下文依赖):

相关推荐
CoderOnly1 小时前
【图问答】DeepSeek-VL 论文阅读笔记
计算机视觉·大模型
云逸001~2 小时前
Kubeflow 快速入门实战(二) - Pipelines / Katib / KServer
云原生·kubernetes·大模型·llm·mlops·kubeflow·kserver
万俟淋曦4 小时前
【论文速递】2025年04周 (Robotics/Embodied AI/LLM)
人工智能·ai·机器人·大模型·论文·具身智能·vla
TGITCIC4 小时前
智驱未来:AI大模型重构数据治理新范式
大模型·数据治理·ai agent·rag检索增强·mcp·大模型数据·ai数据
程序员一一涤生19 小时前
别再堆文档了,大模型时代知识库应该这样建
大模型·知识库
CoderJia程序员甲1 天前
KrillinAI:视频跨语言传播的一站式AI解决方案
人工智能·ai·大模型·音视频·短视频
黑客-雨1 天前
一文读懂 MCP!大模型如何用它连接世界,打造更智能的 AI Agent?
人工智能·ai·大模型·llm·agent·ai大模型·mcp
非典型程序猿1 天前
【Vulkan 入门系列】创建交换链、图像视图和渲染通道(四)
gpu·音视频开发
轻口味1 天前
给AI装上“万能双手”的协议,小白也能玩转智能工具-一文搞懂MCP
人工智能·ai·大模型·mcp
meisongqing1 天前
【大模型】Prompt构造与优化指南
人工智能·大模型·prompt