- KV Cache
- int量化
- PagedAttention
- GQA
- Speculative Decoding
常见的LLM推理加速解决方案
transformer_WSZ2023-12-04 15:51
相关推荐
一个处女座的程序猿11 小时前
CV之VLM之LLM-OCR:《DeepSeek-OCR 2: Visual Causal Flow》翻译与解读zhangfeng113312 小时前
大模型微调时 Firefly(流萤)和 LlamaFactory(LLaMA Factory)这两个工具/框架之间做出合适的选择love530love13 小时前
技术复盘:llama-cpp-python CUDA 编译实战 (Windows)玄同76514 小时前
Llama.cpp 全实战指南:跨平台部署本地大模型的零门槛方案dawdo22218 小时前
自己动手从头开始编写LLM推理引擎(9)-KV缓存实现和优化zhangfeng113321 小时前
大模型微调主要框架 Firefly vs LLaMA Factory 全方位对比表小杨互联网1 天前
LLM应用三大隐形风险与防护方案详解小汤圆不甜不要钱2 天前
「Datawhale」RAG技术全栈指南 Task 5五点钟科技2 天前
Deepseek-OCR:《DeepSeek-OCR: Contexts Optical Compression》 论文要点解读AndrewHZ2 天前
【AI黑话日日新】什么是AI智能体?