技术栈
模型加速
破烂pan
3 天前
llm
·
模型加速
模型推理加速技术全景解析:从基础优化到前沿创新
在2024-2025年间,大模型推理加速技术取得了显著突破,从传统的模型压缩到前沿的分页内存管理,再到革命性的投机解码,这些技术共同推动了大模型推理速度的质的飞跃。本报告将深入浅出地解析这些主流加速手段,结合一年内发布的代表性模型和框架,揭示它们如何在实际应用中实现推理加速,并提供相应的代码示例。
静心问道
4 个月前
人工智能
·
语言模型
·
模型加速
CacheBlend:结合缓存知识融合的快速RAG大语言模型推理服务
温馨提示: 本篇文章已同步至"AI专题精讲" CacheBlend:结合缓存知识融合的快速RAG大语言模型推理服务
静心问道
5 个月前
人工智能
·
模型加速
·
ai技术应用
Deja Vu: 利用上下文稀疏性提升大语言模型推理效率
温馨提示: 本篇文章已同步至"AI专题精讲" Deja Vu: 利用上下文稀疏性提升大语言模型推理效率
静心问道
5 个月前
人工智能
·
模型加速
·
ai技术应用
·
缓存压缩与传输
CacheGen:用于快速大语言模型推理服务的 KV 缓存压缩与流式传输
温馨提示: 本篇文章已同步至"AI专题精讲" CacheGen:用于快速大语言模型推理服务的 KV 缓存压缩与流式传输
静心问道
5 个月前
人工智能
·
语言模型
·
模型加速
·
ai技术应用
BitDistiller:通过自蒸馏释放 Sub-4-Bit 大语言模型的潜力
温馨提示: 本篇文章已同步至"AI专题精讲" BitDistiller:通过自蒸馏释放 Sub-4-Bit 大语言模型的潜力
静心问道
5 个月前
人工智能
·
模型加速
·
ai技术应用
DeepSpeed-FastGen:通过 MII 和 DeepSpeed-Inference 实现大语言模型的高吞吐文本生成
温馨提示: 本篇文章已同步至"AI专题精讲" DeepSpeed-FastGen:通过 MII 和 DeepSpeed-Inference 实现大语言模型的高吞吐文本生成
我是有底线的