- KV Cache
- int量化
- PagedAttention
- GQA
- Speculative Decoding
常见的LLM推理加速解决方案
transformer_WSZ2023-12-04 15:51
相关推荐
养肥胖虎25 分钟前
完整学习LLM(一):为什么我要系统学习大模型扫地的小何尚2 小时前
掌握 Agentic AI 技术:AI Agent 定制方法全景与实践路径解局易否结局11 小时前
FlashAttention 在昇腾NPU上的实现:从内存墙到IO感知冬奇Lab13 小时前
Agent 系列(一):Agent 是什么——不只是「会调工具的 LLM」冬奇Lab13 小时前
RAG 系列(二十四):代码 RAG——让 AI 理解你的代码库创世宇图16 小时前
【AI入门知识点】LLM 原理是什么?为什么 ChatGPT 看起来像“会思考”?创世宇图19 小时前
【AI入门知识点】Function Calling 是什么?为什么 AI 开始会“调用工具”了?Soari21 小时前
性能压榨的暴力美学:深度拆解 llama.cpp,结合 GGUF 量化实测,看普通人如何用 2GB 内存硬核跑赢 7B 大模型BeforeEasy1 天前
关于大模型工具调用技术的总结龙骑士baby1 天前
重建 AI 认知第 1 篇:基础认知——一张地图看懂 AI Landscape