大语言模型推理优化--键值缓存--Key-value Cache

文章目录

  • [一、生成式预训练语言模型 GPT 模型结构](#一、生成式预训练语言模型 GPT 模型结构)
  • [二、FastServe 框架](#二、FastServe 框架)
  • [三、Key-value Cache](#三、Key-value Cache)

一、生成式预训练语言模型 GPT 模型结构

目前,深度神经网络推理服务系统已经有一些工作针对生成式预训练语言模型 GPT 的独特架构和迭代生成模式进行优化。GPT 架构的主要部分是一堆叠的 Transformer 层,如图所示。在Transformer 层中,掩码自注意力模块是与其他深度神经网络架构不同的核心组件。对于输入中的每个词元,它派生出三个值,即查询(Query)、键(Key)和值(Value)。将查询与当前词元之前所有词元的键进行点积,从当前词元的角度衡量之前词元的相关性。由于 GPT 的训练目标是预测下一个词元,因此通过 Transformer 中的掩码矩阵实现每个词元不能利用其位置之后的信息。之后,对点积使用 Softmax 函数以获得权重,并根据权重对值进行加权求和以产生输出。

二、FastServe 框架

FastServe系统,是由北京大学研究人员开发,针对大语言模型的分布式推理服务进行了设计和优化。整体系统设计目标包含以下三个方面:(1)低作业完成时间:专注于交互式大语言模型应用,用户希望作业能够快速完成,系统应该在处理推理作业时实现低作业完成时间;(2)高效的 GPU 显存管理:大语言模型的参数和键值缓存占用了大量的 GPU 显存,系统应该有效地管理 GPU 显存,以存储模型和中间状态;(3)可扩展的分布式系统:大语言模型需要多个 GPU 以分布式方式进行推理,系统需要是可扩展的分布式系统,以处理大语言模型推理作业。

三、Key-value Cache

1.大模型推理的冗余计算

我们先简单观察一下基于Decoder架构的大模型的生成过程。假设模型只是一层Self Attention,用户输入"中国的首都",模型续写得到的输出为"是北京",模型的生成过程如下:

  • 将"中国的首都"输入模型,得到每个token的注意力表示(绿色部分)。使用"首都"的注意力表示,预测得到下一个token为"是"(实际还需要将该注意力表示映射成概率分布logits,为了方便叙述,我们忽略该步骤。
  • 将"是"拼接到原来的输入,得到"中国的首都是",将其输入模型,得到注意力表示,使用"是"的注意力表示,预测得到下一个token为"北"。
  • 将"北"拼接到原来的输入,依此类推,预测得到"京",最终得到"中国的首都是北京"
      在每一步生成中,仅使用输入序列中的最后一个token的注意力表示,即可预测出下一个token。但模型还是并行计算了所有token的注意力表示,其中产生了大量冗余的计算(包含qkv映射,attention计算等),并且输入的长度越长,产生的冗余计算量越大。例如:
  • 在第一步中,我们仅需使用"首都"的注意力表示,即可预测得到"是",但模型仍然会并行计算出"中国","的"这两个token的注意力表示。
  • 在第二步中,我们仅需使用"是"的注意力表示,即可预测得到"北",但模型仍然会并行计算"中国","的","首都"这三个token的注意力表示。

2.Self Attention

参考:https://mp.weixin.qq.com/s/7Fm8LbUN9jQ2HqxPbUU7UQ


3.KV Cache

相关推荐
callJJ1 分钟前
Spring AI ETL 数据处理管道实战指南:从原始文档到向量索引
java·人工智能·spring·ai·etl·spring ai
志栋智能6 分钟前
当巡检遇上超自动化:一场运维质量的系统性升级
运维·服务器·网络·数据库·人工智能·机器学习·自动化
程序员潘子7 分钟前
【保姆级教程】B 站缓存 m4s 文件转 MP4,无损合成一行命令搞定
缓存·ffmpeg·ffmpeg\
Micro麦可乐7 分钟前
Redis只会用来做缓存?解锁Redis非缓存的九个应用场景,90%程序员不知道的隐藏技能
数据库·redis·缓存·消息队列·分布式锁·延迟队列·布隆过滤器
有个人神神叨叨9 分钟前
Anthropic Managed Agents 详细介绍
人工智能
键盘鼓手苏苏10 分钟前
Flutter 三方库 persistent_cache_simple 的鸿蒙化适配指南 - 实现具备磁盘溢出淘汰与极简 API 的本地持久化缓存、支持端侧资源异步落地与状态秒开实战
flutter·缓存·harmonyos
跨境卫士—小依11 分钟前
平台流量分发机制变化跨境卖家如何重新获取曝光
大数据·人工智能·跨境电商·亚马逊·营销策略
阿杰学AI11 分钟前
AI核心知识120—大语言模型之 基于人类反馈的强化学习 (简洁且通俗易懂版)
人工智能·ai·语言模型·自然语言处理·aigc·rlhf·基于人类反馈的强化学习
21号 112 分钟前
10.Redis 缓存
数据库·redis·缓存
从零开始的-CodeNinja之路12 分钟前
【Redis】Redis 缓存应用、淘汰机制—(四)
java·redis·缓存