VLLM历次会议(2024.7)

支持LLama3.1:

量化:

vllm git下的子项目:llm-compressor

CPU offloading

允许跑更大的模型;会变慢些;在CPU-GPU之间有NVLink的机器上,变慢的幅度小。

新增对Medusa(用1个Head并行推出好几个output tokens)和MLP-Speculor(考虑output token的上下文依赖):

相关推荐
知了一笑1 天前
独立开发AI产品的那些事
程序员·大模型·产品·独立开发
Qiuner1 天前
大模型请求/响应参数完全拆解:每个字段都是什么意思?
阿里云·大模型·llm·请求·apifox
胡桃姓胡,蝴蝶也姓胡1 天前
Rag优化 - 如何提升首字响应速度
后端·大模型·rag
wei_shuo2 天前
Llama-2-7b 昇腾 NPU 测评总结:核心性能数据、场景适配建议与硬件选型参考
大模型·llama·昇腾
bulucc2 天前
一个简答的意图识别Agent
python·大模型·agent
扫地的小何尚2 天前
AI创新的火花:NVIDIA DGX Spark开箱与深度解析
大数据·人工智能·spark·llm·gpu·nvidia·dgx
居7然3 天前
DeepSeek OCR:重新定义AI文档处理的“降本增效”新范式
人工智能·算法·语言模型·自然语言处理·大模型·ocr
腾视科技3 天前
安全驾驶 智在掌控|腾视科技ES06终端,为车辆运营赋能
大数据·人工智能·科技·安全·大模型
何如千泷3 天前
【论文阅读】Qwen2.5-VL Technical Report
论文阅读·大模型·多模态·1024程序员节
致Great4 天前
ChatML vs Harmony:深度解析OpenAI全新对话结构格式的变化
大模型