Java缓存全解析：概念、分类、Guava Cache、算法及对比

一、Java中缓存的核心概念

缓存是基于"空间换时间"思想的优化手段------将频繁访问的数据/计算结果临时存储在"更快的存储介质"中，后续访问时直接从该介质获取，避免重复计算或慢速IO（如数据库查询、网络请求），从而提升系统响应速度和吞吐量。

缓存的核心价值：

降低慢资源的访问压力（如减轻数据库负载）；
提升响应速度（内存访问速度比磁盘/网络快几个数量级）；
减少重复计算（如复杂公式计算、序列化结果）。

Java中缓存的核心要素：

键（Key）：唯一标识缓存项，需具备hashCode()和equals()一致性；
值（Value）：缓存的实际数据（可是原始数据、对象、计算结果等）；
过期策略：缓存项的存活规则（如时间过期、空间淘汰）；
一致性策略：缓存与源数据的同步规则（如更新/删除源数据时如何处理缓存）。

二、进程内缓存 vs 进程外缓存

缓存按"存储位置是否与应用进程在同一内存空间"可分为两类，核心差异在于共享性、可靠性、性能：

特性	进程内缓存（堆内/堆外）	进程外缓存（分布式缓存）
存储位置	应用进程的内存空间（堆内/堆外）	独立进程/服务器的内存（如Redis、Memcached）
访问方式	进程内直接调用（无网络开销）	网络调用（TCP/HTTP）
共享性	仅当前进程可用（多实例不共享）	跨进程、跨服务器共享（多实例统一缓存）
可靠性	进程重启/崩溃后缓存丢失	支持持久化（如Redis RDB/AOF），集群部署可容错
容量限制	受JVM内存限制（堆内缓存受堆大小限制）	独立部署，容量可横向扩展（如Redis集群）
典型实现	Guava Cache、Caffeine、HashMap（简单缓存）	Redis、Memcached、Ehcache（分布式模式）

关键补充：

进程内缓存细分：
- 堆内缓存：缓存项存储在JVM堆中（如Guava Cache），优点是访问最快，缺点是受GC影响，容量有限；
- 堆外缓存：缓存项存储在JVM堆外内存（如Caffeine的堆外模式、Ehcache），优点是不受GC影响，容量可更大，缺点是序列化/反序列化有开销。

三、Guava Cache：Java堆内缓存的标杆工具

Guava Cache是Google Guava库提供的高性能堆内缓存实现，专为Java应用设计，解决了原生HashMap作为缓存的核心痛点（无过期、无淘汰、无统计等），是进程内缓存的首选工具之一。

1. 核心特性

支持容量限制（基于大小的淘汰）；
支持过期策略（访问过期、写入过期）；
支持缓存加载策略（手动加载、自动加载、异步加载）；
支持淘汰算法（默认LRU，可配置）；
提供缓存统计（命中率、加载次数、淘汰次数等）；
支持移除监听器（缓存项被淘汰时触发回调）；
线程安全（支持高并发访问）。

2. 基本使用（代码示例）

第一步：引入依赖（Maven）

XML 复制代码

<dependency>
    <groupId>com.google.guava</groupId>
    <artifactId>guava</artifactId>
    <version>32.1.3-jre</version> <!-- 最新稳定版 -->
</dependency>

第二步：构建并使用缓存

Java 复制代码

import com.google.common.cache.*;
import java.util.concurrent.TimeUnit;

public class GuavaCacheDemo {
    public static void main(String[] args) {
        // 1. 构建缓存（CacheBuilder链式配置）
        LoadingCache<String, String> userCache = CacheBuilder.newBuilder()
                .maximumSize(1000) // 最大缓存容量（超过则按LRU淘汰）
                .expireAfterWrite(10, TimeUnit.MINUTES) // 写入后10分钟过期
                .expireAfterAccess(5, TimeUnit.MINUTES) // 访问后5分钟过期（优先级高于写入过期）
                .recordStats() // 开启缓存统计
                .removalListener((RemovalListener<String, String>) removal -> {
                    // 缓存项被淘汰时的回调（如打印日志）
                    System.out.printf("缓存项[%s]被淘汰，原因：%s%n", 
                            removal.getKey(), removal.getCause());
                })
                .build(
                        // 自动加载逻辑（缓存不存在时触发，线程安全）
                        CacheLoader.from(key -> loadUserFromDB(key))
                );

        try {
            // 2. 访问缓存（get()方法：不存在则自动加载）
            String user1 = userCache.get("user:1001");
            System.out.println("获取用户：" + user1);

            // 3. 手动放入缓存
            userCache.put("user:1002", "李四");

            // 4. 批量获取
            userCache.getAllPresent(List.of("user:1001", "user:1002"));

            // 5. 手动失效缓存
            userCache.invalidate("user:1001");

            // 6. 查看缓存统计
            CacheStats stats = userCache.stats();
            System.out.printf("命中率：%.2f，加载次数：%d，淘汰次数：%d%n",
                    stats.hitRate(), stats.loadCount(), stats.evictionCount());
        } catch (Exception e) {
            e.printStackTrace();
        }
    }

    // 模拟从数据库加载数据（实际场景替换为真实DB查询）
    private static String loadUserFromDB(String key) {
        System.out.printf("从数据库加载数据：%s%n", key);
        return key.equals("user:1001") ? "张三" : "未知用户";
    }
}

3. 核心配置说明

容量控制：
- maximumSize(long)：基于缓存项数量的限制；
- maximumWeight(long) + weigher(Weigher)：基于自定义权重的限制（如按数据大小加权）。
过期策略：
- expireAfterWrite：写入后固定时间过期（适合时效性强的数据，如新闻）；
- expireAfterAccess：最后一次访问后固定时间过期（适合热点数据，如高频查询的用户信息）；
- refreshAfterWrite：写入后固定时间自动刷新（刷新时不会阻塞读取，旧值仍可用）。
并发控制：
- concurrencyLevel(int)：并发访问级别（默认4，控制内部分段锁数量，高并发场景可调整）。

四、常用缓存淘汰算法

当缓存容量达到上限时，需要通过算法淘汰"无用"缓存项，核心目标是保留"最可能被再次访问"的数据，常用算法如下：

1. LRU（Least Recently Used，最近最少使用）

核心思想：淘汰"最长时间未被访问"的缓存项；
原理：基于"近期访问的数据，未来更可能被访问"的假设；
实现：通过双向链表+哈希表（Guava Cache默认实现），访问/插入时将数据移到链表头部，淘汰时移除链表尾部；
优点：实现简单，性能稳定，命中率高；
缺点：可能淘汰"未来会高频访问但近期未访问"的数据（如周期性访问的数据）；
适用场景：大多数通用场景（如用户信息、商品详情缓存）。

2. LFU（Least Frequently Used，最不经常使用）

核心思想：淘汰"访问次数最少"的缓存项；
原理：基于"访问次数多的数据，未来更可能被访问"的假设，为每个缓存项维护访问计数器；
优点：适合长期热点数据（如首页固定推荐内容）；
缺点：
- 计数器需要持续维护，高并发下有开销；
- 新缓存项（访问次数少）可能被误淘汰（"缓存污染"）；
- 无法处理"突发热点"（如临时火爆的新闻，访问次数未追上旧数据）；
适用场景：访问频率相对稳定的场景（如工具类接口缓存）。

3. FIFO（First In First Out，先进先出）

核心思想：按缓存项的"插入顺序"淘汰，先插入的先淘汰；
原理：基于队列结构，插入时入队，淘汰时出队；
优点：实现最简单（如用LinkedHashMap）；
缺点：命中率极低，完全不考虑访问频率和时效性（如早期插入的热点数据会被淘汰）；
适用场景：仅适用于数据时效性严格按插入顺序失效的场景（如日志缓存，仅保留最新N条）。

4. 其他算法（补充）

LRU-K：改进LRU，需累计K次访问才进入缓存热点区，减少缓存污染；
ARC（Adaptive Replacement Cache）：动态平衡LRU和LFU，自适应访问模式；
TTL（Time To Live）：按"存活时间"淘汰，与访问行为无关（如Guava的expireAfterWrite）。

五、堆内缓存的使用场景与注意事项

1. 适用场景

访问频率极高、数据量较小：如系统配置、字典表、热点用户信息（数据量控制在JVM内存可承受范围）；
计算成本高的结果缓存：如复杂公式计算、大数据量聚合结果（避免重复计算）；
低延迟要求的场景：如毫秒级响应的接口，无法容忍网络开销（进程外缓存的网络延迟）；
数据一致性要求不高：如非核心数据（商品销量缓存，允许短期不一致）；
单实例部署或无需跨进程共享：如独立部署的服务，无需多实例同步缓存。

2. 注意事项

（1）内存溢出（OOM）风险

堆内缓存存储在JVM堆中，若缓存容量无限制或配置过大，会导致堆内存不足，触发OOM；
解决方案：
- 严格设置maximumSize或maximumWeight；
- 结合过期策略（如expireAfterAccess）自动淘汰闲置数据；
- 监控JVM堆内存使用，避免缓存占用过多内存。

（2）GC压力

缓存项过多会导致JVM堆中对象增多，GC时扫描和回收的时间变长，可能引发STW（Stop The World）停顿；
解决方案：
- 控制缓存容量，避免缓存大量大对象；
- 若GC压力过大，可考虑堆外缓存（如Caffeine堆外模式）；
- 选择合适的缓存项过期时间，及时回收闲置对象。

（3）数据一致性问题

堆内缓存与源数据（如数据库）无法实时同步，当源数据更新时，缓存会存在"脏数据"；
解决方案：
- 采用"更新/删除源数据时主动失效缓存"（如数据库更新后调用cache.invalidate(key)）；
- 使用短过期时间（如1-5分钟），容忍短期不一致；
- 核心数据避免依赖堆内缓存，或采用"读写锁"确保更新时缓存同步。

（4）并发安全问题

高并发场景下，缓存加载（如loadUserFromDB）可能出现"缓存击穿"（多个线程同时加载同一不存在的key）；
解决方案：
- Guava Cache的LoadingCache默认支持"并发加载"（同一key仅一个线程加载，其他线程阻塞等待）；
- 对热点key提前预热缓存，避免缓存击穿；
- 结合互斥锁（如Redisson分布式锁）防止高并发下的缓存穿透/击穿。

（5）缓存穿透

恶意请求不存在的key（如user:9999），导致缓存未命中，频繁访问源数据（如数据库），引发过载；
解决方案：
- 缓存"空值"（如cache.put("user:9999", null)），并设置短期过期；
- 接入布隆过滤器，提前拦截不存在的key。

六、关键对比

1. 缓存 vs 缓冲区（Buffer）

缓存和缓冲区都属于"临时存储"，但核心目标、使用场景完全不同：

维度	缓存（Cache）	缓冲区（Buffer）
核心目标	减少"慢资源访问/重复计算"，提升响应速度	解决"读写速度不匹配"，平衡IO效率
数据来源	源数据的副本（如数据库数据、计算结果）	待写入/待读取的原始数据（如文件字节、网络数据包）
访问模式	读多写少（优先提升读性能）	读写均衡（或写多读少，如日志缓冲区）
数据生命周期	可配置过期/淘汰（按需保留）	数据写入目标后立即清空（一次性使用）
典型场景	接口缓存、数据库查询缓存、Guava Cache	文件IO（BufferedReader）、网络通信（Socket缓冲区）、IO流缓冲
例子	Redis缓存商品详情、Guava缓存系统配置	ByteBuffer处理网络数据、BufferedWriter写入文件
一句话总结：缓存是"为了复用而存"，缓冲区是"为了适配速度而存"。

2. 堆内缓存（如Guava Cache） vs Redis（分布式缓存）

维度	堆内缓存（Guava Cache）	Redis（分布式缓存）
存储位置	JVM堆内（进程内）	独立服务器内存（进程外）
访问速度	极快（进程内调用，无网络开销）	较快（网络调用，毫秒级）
共享性	仅当前进程可用（多实例不共享）	跨进程、跨服务器共享（多实例统一缓存）
可靠性	进程重启/崩溃后丢失（无持久化）	支持RDB/AOF持久化，集群部署可容错
容量限制	受JVM堆大小限制（通常GB级）	容量可横向扩展（集群模式支持TB级）
数据结构	仅支持键值对（简单结构）	丰富（String、Hash、List、Set、ZSet等）
过期/淘汰策略	支持LRU、TTL等（策略较简单）	支持LRU、LFU、TTL、随机淘汰等（策略丰富）
一致性保障	进程内一致性（线程安全）	分布式一致性（支持事务、CAS、RedLock）
适用场景	单实例、低延迟、小数据量、非核心数据	多实例、跨服务共享、大数据量、核心数据
运维成本	无（随应用部署）	高（需部署、监控、集群维护）
选型建议：

若服务是单实例、追求极致低延迟、数据量小，选堆内缓存（Guava Cache/Caffeine）；
若服务是集群部署、需要跨实例共享缓存、数据量大、要求高可靠，选Redis；
实际项目中常"多级缓存"：堆内缓存（一级）+ Redis（二级），兼顾性能和共享性（如本地缓存热点数据，Redis缓存全量数据）。

总结

缓存的核心是"空间换时间"，按存储位置分为进程内（堆内/堆外）和进程外（分布式）；
Guava Cache是Java堆内缓存的优选，支持LRU淘汰、过期策略、自动加载，适用于单实例、低延迟场景；
常用淘汰算法中，LRU通用性最强，LFU适合稳定热点数据，FIFO仅适用于简单场景；
堆内缓存需警惕OOM、GC压力、数据一致性问题，缓存与缓冲区的核心区别是"复用"vs"适配速度"；
堆内缓存追求极致性能，Redis追求共享性和可靠性，实际项目中常组合使用（多级缓存）。