VLLM历次会议(2024.7)

支持LLama3.1:

量化:

vllm git下的子项目:llm-compressor

CPU offloading

允许跑更大的模型;会变慢些;在CPU-GPU之间有NVLink的机器上,变慢的幅度小。

新增对Medusa(用1个Head并行推出好几个output tokens)和MLP-Speculor(考虑output token的上下文依赖):

相关推荐
InternLM7 小时前
基于InternLM的情感调节大师FunGPT
大模型·大语言模型·大模型应用·书生
sg_knight8 小时前
大模型连接万物的“万能插座”:深度解析模型上下文协议MCP
人工智能·ai·大模型·agent·ai大模型·mcp·模型上下文协议
audyxiao00113 小时前
数据挖掘顶刊《IEEE Transactions on Knowledge and Data Engineering》2025年5月研究热点都有些什么?
大数据·人工智能·数据挖掘·大模型·图技术·智能体·时序动态建模
无风听海1 天前
Milvus单机模式安装和试用
大模型·llm·milvus·向量数据库
Tadas-Gao1 天前
从 GPT 的发展看大模型的演进
人工智能·gpt·机器学习·大模型·llm
cooldream20091 天前
华为云Flexus+DeepSeek征文|利用华为云 Flexus 云服务一键部署 Dify 平台开发文本转语音助手全流程实践
大模型·华为云·dify
cooldream20091 天前
华为云Flexus+DeepSeek征文|华为云 Flexus X 加速 Dify 平台落地:高性能、低成本、强可靠性的云上选择
大模型·华为云·dify·deepseek
中杯可乐多加冰2 天前
采用Bright Data+n8n+AI打造自动化新闻助手:每天5分钟实现内容日更
运维·人工智能·自动化·大模型·aigc·n8n
AI大模型系统化学习2 天前
AI产品风向标:从「工具属性」到「认知引擎」的架构跃迁
大数据·人工智能·ai·架构·大模型·ai大模型·大模型学习
汪汪汪侠客2 天前
源码解析(一):GraphRAG
算法·面试·大模型·rag·graphrag