技术栈

常见的LLM推理加速解决方案

transformer_WSZ2023-12-04 15:51
  • KV Cache
  • int量化
  • PagedAttention
  • GQA
  • Speculative Decoding
    • code
    • Accelerating Generative AI with PyTorch II: GPT, Fast
    • Fast Inference from Transformers via Speculative Decoding

参考

  • PyTorch造大模型"加速包",不到1000行代码提速10倍!英伟达科学家:minGPT以来最好的教程式repo之一
上一篇:网工学习6-配置和管理 VLAN
下一篇:【苍穹外卖】——第一天
相关推荐
Java之美
17 小时前
vLLM 是怎么工作的?
llm
JouYY
19 小时前
聊一下多 Agent 编排架构的应用实践
架构·llm·agent
武子康
1 天前
调查研究-200 llama.cpp b9754:一次很小但很关键的 Agent 工具调用修复
人工智能·agent·llama
To_OC
2 天前
数据集划分不是随便切:手把手切分大众点评情感数据集
人工智能·llm·agent
想要成为糕糕手
3 天前
深入理解AI Agent工具调用:从原理到代码实现
llm·agent
yLDeveloper
3 天前
从矩阵乘法到多模态大模型 - LLM 篇
llm·nlp
前端君
3 天前
Claude Code 如何配置本地Ollama模型或别的模型(Deepseek等)
llm·agent·claude
Darling噜啦啦
3 天前
LLM 数据工程实战:从数据集划分到交叉验证——大模型智能的根基
llm
HjhIron
3 天前
工具调用:当LLM学会使用"武器",AI Agent的底层逻辑拆解
llm·agent
Hyyy
4 天前
Few-shot、Chain-of-Thought、ReAct模式是什么
llm·ai编程
热门推荐
012026年6月AI大模型全景报告:GPT-5.6、Claude Opus 4.8、Gemini 3.5,中美AI三足鼎立谁主沉浮?022026年6月AI行业全景:从百模大战到Agent元年,这30天发生了什么?032026 年 AI 编程工具终极横评:Cursor vs Claude Code vs Copilot vs Windsurf04飞书长连接_事件订阅(接收消息,审批任务状态变更)05Trae国际版与国内版深度测评:AI原生IDE的双生花06【AI】2026 年具身智能模型和世界模型总结07GitHub 镜像站点08Claude Code、Codex、Cursor三分天下:2026年AI编程Agent生态全景剖析092026年AI架构实战:彻底解决OpenAI接口超时与封号,Python调用GPT-5.2/Sora2企业级架构详解(附源码+压测报告)102026 AI 编程工具终极实战指南:Cursor vs Claude Code vs Copilot,开发者该怎么选?