VLLM历次会议(2024.7)

支持LLama3.1:

量化:

vllm git下的子项目:llm-compressor

CPU offloading

允许跑更大的模型;会变慢些;在CPU-GPU之间有NVLink的机器上,变慢的幅度小。

新增对Medusa(用1个Head并行推出好几个output tokens)和MLP-Speculor(考虑output token的上下文依赖):

相关推荐
CoderJia程序员甲10 小时前
GitHub 热榜项目 - 日榜(2026-04-09)
人工智能·ai·大模型·github·ai教程
CodeCraft Studio11 小时前
LightningChart .NET v12.5.1 发布:高性能数据可视化再升级,赋能工业与实时数据场景
信息可视化·.net·gpu·数据可视化·lightningchart·高性能图表开发·数据可视化引擎
前端摸鱼匠13 小时前
【AI大模型春招面试题18】 L1、L2正则化、Dropout、早停(Early Stopping)的原理与适用场景?
人工智能·ai·语言模型·面试·大模型
前端摸鱼匠14 小时前
【AI大模型春招面试题17】 过拟合、欠拟合在大模型中的表现与解决策略?
人工智能·ai·语言模型·面试·大模型
魔乐社区14 小时前
从0到1:魔乐社区贡献者丁一超的大模型量化实战指南
人工智能·大模型·量化
CoderJia程序员甲14 小时前
GitHub 热榜项目 - 日榜(2026-04-10)
人工智能·ai·大模型·github·ai教程
AI、少年郎15 小时前
如何用个人电脑快速训练自己的语言模型?MiniMind 全流程实战指南
人工智能·python·神经网络·ai·自然语言处理·大模型·模型训练微调
iiiiii1115 小时前
【论文阅读笔记】ReVal:让大模型强化学习真正支持离策略(off-policy)数据复用
论文阅读·笔记·语言模型·大模型·llm
千桐科技15 小时前
从“找答案”到“解决问题”:qKnow 如何用“预置+迭代”体系打通 AI 落地最后一公里?
大模型·知识图谱·知识库·智能体·智能应用·qknow
guslegend1 天前
第5节:动态切片策略与重叠机制提升RAG召回率
人工智能·大模型·rag