技术栈

模型加速

静心问道
2 天前
人工智能·语言模型·模型加速
CacheBlend:结合缓存知识融合的快速RAG大语言模型推理服务温馨提示: 本篇文章已同步至"AI专题精讲" CacheBlend:结合缓存知识融合的快速RAG大语言模型推理服务
静心问道
17 天前
人工智能·模型加速·ai技术应用
Deja Vu: 利用上下文稀疏性提升大语言模型推理效率温馨提示: 本篇文章已同步至"AI专题精讲" Deja Vu: 利用上下文稀疏性提升大语言模型推理效率
静心问道
19 天前
人工智能·模型加速·ai技术应用·缓存压缩与传输
CacheGen:用于快速大语言模型推理服务的 KV 缓存压缩与流式传输温馨提示: 本篇文章已同步至"AI专题精讲" CacheGen:用于快速大语言模型推理服务的 KV 缓存压缩与流式传输
静心问道
21 天前
人工智能·语言模型·模型加速·ai技术应用
BitDistiller:通过自蒸馏释放 Sub-4-Bit 大语言模型的潜力温馨提示: 本篇文章已同步至"AI专题精讲" BitDistiller:通过自蒸馏释放 Sub-4-Bit 大语言模型的潜力
静心问道
22 天前
人工智能·模型加速·ai技术应用
DeepSpeed-FastGen:通过 MII 和 DeepSpeed-Inference 实现大语言模型的高吞吐文本生成温馨提示: 本篇文章已同步至"AI专题精讲" DeepSpeed-FastGen:通过 MII 和 DeepSpeed-Inference 实现大语言模型的高吞吐文本生成