AI大模型对话(上下文)缓存能力

互联网应用中,为了提高数据获取的即时性,产生了各种分布式缓存组件,比如Redis、Memcached等等。

大模型时代,除非是免费模型,否则每次对话都会花费金钱来进行对话,对话是不是也可以参照缓存的做法来提高命中率,即时响应提高需求呢。

近日,月之暗面提出了上下文缓存的概念。

Context Caching (上下文缓存)是一种高效的数据管理技术,它允许系统预先存储那些可能会被频繁请求的大量数据或信息。这样,当您再次请求相同信息时,系统可以直接从缓存中快速提供,而无需重新计算或从原始数据源中检索,从而节省时间和资源。

不过定价还是比较贵的,按时长计算。特别是对于智能客户场景,用户提问的问题总归是趋于收敛的,所以可以节省不少资金花费。

同样,使用分布式缓存的做法,一样可以完成对话缓存,每次提问先经过模型比对,因为有语义理解能力,即便不是同一句话,但意思相同,一样可以认为是命中,命中后就可以直接从缓存中取出数据来响应用户。

Context Caching 特别适合于用频繁请求,重复引用大量初始上下文的情况,通过重用已缓存的内容,可以显著提高效率并降低费用。因为这个功能具有强烈的业务属性,我们下面简单列举一些合适的业务场景:

  1. 提供大量预设内容的 QA Bot,例如 Kimi API 小助手。
  2. 针对固定的文档集合的频繁查询,例如上市公司信息披露问答工具。
  3. 对静态代码库或知识库的周期性分析,例如各类 Copilot Agent。
  4. 瞬时流量巨大的爆款 AI 应用,例如哄哄模拟器,LLM Riddles。
  5. 交互规则复杂的 Agent 类应用,例如什么值得买 Kimi+ 等。
相关推荐
廋到被风吹走31 分钟前
缓存一致性四大模式深度解析:从理论到架构实战
缓存·架构
wWYy.1 小时前
详解redis(1)
数据库·redis·缓存
Anastasiozzzz2 小时前
LRU缓存是什么?&力扣相关题目
java·缓存·面试
麦兜*2 小时前
SpringBoot集成Redis缓存,提升接口性能的五大实战策略
spring boot·redis·缓存
填满你的记忆6 小时前
【从零开始——Redis 进化日志|Day7】双写一致性难题:数据库与缓存如何不再“打架”?(附 Canal/读写锁实战)
java·数据库·redis·缓存·面试
wWYy.7 小时前
详解redis(5):Gossiping 协议
数据库·redis·缓存
小北方城市网9 小时前
Redis 缓存设计与避坑实战:解决穿透 / 击穿 / 雪崩
java·大数据·数据库·redis·python·elasticsearch·缓存
无籽西瓜a9 小时前
详解Redis持久化:RDB、AOF与混合持久化
数据库·redis·缓存
猫头虎10 小时前
如何把家里 NAS 挂载到公司电脑当“本地盘”用?(Windows & Mac 通过SMB协议挂载NAS硬盘教程,节点小宝异地组网版)
windows·网络协议·计算机网络·macos·缓存·人机交互·信息与通信
虹科网络安全10 小时前
艾体宝洞察 | 不止步于缓存 - Redis 多数据结构平台的演进与实践
数据结构·redis·缓存