技术栈

常见的LLM推理加速解决方案

transformer_WSZ2023-12-04 15:51
  • KV Cache
  • int量化
  • PagedAttention
  • GQA
  • Speculative Decoding
    • code
    • Accelerating Generative AI with PyTorch II: GPT, Fast
    • Fast Inference from Transformers via Speculative Decoding

参考

  • PyTorch造大模型"加速包",不到1000行代码提速10倍!英伟达科学家:minGPT以来最好的教程式repo之一
上一篇:网工学习6-配置和管理 VLAN
下一篇:【苍穹外卖】——第一天
相关推荐
大模型教程
4 小时前
LM Studio本地部署Qwen3
程序员·llm·ollama
大模型教程
4 小时前
dify+MCP多应用,构建灵活的AI应用生态系统
程序员·llm·mcp
RainbowSea
4 小时前
LLM ,MCP协议,A2A协议,RAG,智能体(AI Agent) 图解详细讲解
llm·ai编程·mcp
AI大模型
17 小时前
SwanLab入门深度学习:Qwen3大模型指令微调
程序员·llm·agent
AI大模型
18 小时前
Anything LLM+LM Studio+SearXNG实现私有模型开启联网功能
程序员·llm·agent
量子位
21 小时前
稚晖君新大招:机器人二次开发0门槛了!
llm·ai编程
聚客AI
1 天前
📚LangChain框架下的检索增强:5步构建高效智能体系统
人工智能·langchain·llm
京东零售技术
1 天前
大模型工具的 “京东答案”
llm
深度学习机器
1 天前
LangExtract:基于LLM的信息抽取框架|附项目解析与实战代码
llm·nlp·agent
用户8491371754716
1 天前
为什么大模型都离不开SSE?带你搞懂第2章〈大模型流式应用场景〉
llm·agent
热门推荐
01UV安装并设置国内源02KGG转MP3工具|非KGM文件|解密音频03Qwen3-Coder 快速上手教程 | Qwen Code + Claude Code04蜘蛛磁力 搜索引擎大全,如何使用蜘蛛磁力查找磁力链接05Claude Code VSCode集成开发指南:AI编程助手完整配置06DeepSeek更新!速览DeepSeek V3.1新特性07NVIDIA显卡驱动、CUDA、cuDNN 和 TensorRT 版本匹配指南08【2025.08.06最新版】Android Studio下载、安装及配置记录(自动下载sdk)092025最新国内服务器可用docker源仓库地址大全(2025年8月更新)10【踩坑笔记】50系显卡适配的 PyTorch 安装