VLLM历次会议(2024.7)

支持LLama3.1:

量化:

vllm git下的子项目:llm-compressor

CPU offloading

允许跑更大的模型;会变慢些;在CPU-GPU之间有NVLink的机器上,变慢的幅度小。

新增对Medusa(用1个Head并行推出好几个output tokens)和MLP-Speculor(考虑output token的上下文依赖):

相关推荐
安逸sgr3 小时前
Agent 记忆系统完整实现(二):记忆系统架构全景——分层设计与核心模块!
ai·系统架构·大模型·aigc·负载均衡·agent
大数据AI人工智能培训专家培训讲师叶梓6 小时前
120B 数学语料 + GRPO 算法,DeepSeekMath 刷新开源大模型推理天花板
人工智能·算法·大模型·推理·deepseek·openclaw·openclaw 讲师
JuckenBoy7 小时前
Linux环境安装SGLang框架运行自选大模型(以Rocky9.7为例)
linux·运维·大模型·qwen·rocky·deepseek·sglang
CoderJia程序员甲8 小时前
GitHub 热榜项目 - 日榜(2026-03-20)
人工智能·ai·大模型·github·ai教程
华农DrLai10 小时前
什么是Prompt注入攻击?为什么恶意输入能操控AI行为?
人工智能·深度学习·大模型·nlp·prompt
威化饼的一隅10 小时前
【大模型LLM学习】天池Deep Research Agent开发赛
大模型·agent·智能体·deep research·深度研究智能体·deep search
kishu_iOS&AI10 小时前
PyCharm 结合 uv 进行 AI 大模型开发
人工智能·pycharm·大模型·uv
被制作时长两年半的个人练习生12 小时前
Engram论文笔记
gpu·deepseek
带娃的IT创业者13 小时前
国内主流大模型API调用入门与对比:DeepSeek/智谱GLM/Kimi/千问完整指南
python·大模型·api调用·kimi·千问·deepseek·智谱glm
无极低码1 天前
ecGlypher新手安装分步指南(标准化流程)
人工智能·算法·自然语言处理·大模型·rag