VLLM历次会议(2024.7)

支持LLama3.1:

量化:

vllm git下的子项目:llm-compressor

CPU offloading

允许跑更大的模型;会变慢些;在CPU-GPU之间有NVLink的机器上,变慢的幅度小。

新增对Medusa(用1个Head并行推出好几个output tokens)和MLP-Speculor(考虑output token的上下文依赖):

相关推荐
WilliamHu.18 小时前
金融分类提示词演示
开发语言·python·大模型·prompt
缘友一世1 天前
LangGraph智能体(天气和新闻助手)开发与部署
语言模型·langchain·大模型·llm·langgraph
WSSWWWSSW1 天前
华为昇腾NPU卡 文生视频[T2V]大模型WAN2.1模型推理使用
人工智能·大模型·音视频·显卡·文生视频·文生音频·文生音乐
青衫客362 天前
LLM—— 基于 MCP 协议(Stdio 模式)的工具调用实践
大模型·llm·mcp
Stara05112 天前
基于Coze平台的自动化情报采集与处理引擎—实现小红书图文到飞书的端到端同步
人工智能·大模型·ocr·飞书·工作流·ai agent·coze
Sherlock Ma2 天前
字节跳动GR-3:可泛化、支持长序列复杂操作任务的机器人操作大模型(技术报告解读)
人工智能·计算机视觉·语言模型·机器人·大模型·aigc·具身智能
青衫客362 天前
LLM—— 基于 MCP 协议(SSE 模式)的工具调用实践
python·大模型·llm
audyxiao0012 天前
2025年6月数据挖掘顶刊TKDE研究热点有哪些?
人工智能·数据挖掘·大模型·热点分析·tkde
汀、人工智能3 天前
AI Compass前沿速览:可灵创意工坊、字节Coze Studio&Coze Loop、通义万相2.2 、智谱GLM-4.5、腾讯混元3D世界模型开源
人工智能·大模型
XiaoLeisj3 天前
【智能协同云图库】智能协同云图库第八弹:基于阿里云百炼大模型—实现 AI 扩图功能
spring boot·阿里云·java-ee·大模型·ai编程·ai 大模型·ai 图片生成