VLLM历次会议(2024.7)

支持LLama3.1:

量化:

vllm git下的子项目:llm-compressor

CPU offloading

允许跑更大的模型;会变慢些;在CPU-GPU之间有NVLink的机器上,变慢的幅度小。

新增对Medusa(用1个Head并行推出好几个output tokens)和MLP-Speculor(考虑output token的上下文依赖):

相关推荐
大千AI助手31 分钟前
灾难性遗忘:神经网络持续学习的核心挑战与解决方案
人工智能·深度学习·神经网络·大模型·llm·持续学习·灾难性遗忘
风信子的猫Redamancy2 小时前
文心大模型 X1.1:百度交出的“新深度思考”答卷
人工智能·百度·大模型·深度思考
胡耀超1 天前
4、Python面向对象编程与模块化设计
开发语言·python·ai·大模型·conda·anaconda
胡耀超1 天前
3.Python高级数据结构与文本处理
服务器·数据结构·人工智能·windows·python·大模型
CoderJia程序员甲1 天前
GitHub 热榜项目 - 日榜(2025-09-09)
ai·开源·大模型·github·ai教程
kailp2 天前
突破效率与质量边界:深入解析MiniMax-Remover视频物体移除方案
人工智能·ai·大模型·gpu算力·图片渲染
roshy2 天前
MCP(模型上下文协议)入门教程1
人工智能·大模型·agent
胡耀超3 天前
大模型架构演进全景:从Transformer到下一代智能系统的技术路径(MoE、Mamba/SSM、混合架构)
人工智能·深度学习·ai·架构·大模型·transformer·技术趋势分析
程序员鱼皮3 天前
扒了下 Cursor 的提示词,被狠狠惊艳到了!
计算机·ai·程序员·大模型·互联网·编程
bylander3 天前
【论文阅读】自我进化的AI智能体综述
人工智能·大模型·智能体