Redis 使用过程中可能遇到的常见问题或 “坑”

数据结构与操作

哈希表大 key 问题 ：创建过大的哈希表（大 key）会导致 Redis 内存使用不连续，增加内存碎片，并且在删除或修改时会阻塞主线程较长时间。
列表大元素问题 ：列表中如果存在非常大的元素，如大字符串，会占用过多内存，同时在对列表进行操作（如LPUSH、LRANGE）时，性能会受影响。
集合元素重复添加 ：虽然集合（Set）会自动去重，但如果业务逻辑依赖于添加操作的返回值来判断是否新元素添加成功，可能会因重复添加导致逻辑错误。
有序集合（ZSet）分数精度问题 ：ZSet 的分数（score）是双精度浮点数，在进行一些对精度要求高的运算（如金融场景）时，可能会出现精度丢失问题。
误操作集合命令 ：例如将适用于列表的LPUSH命令误用于集合，会导致命令执行失败，需要确保对不同数据结构命令的正确使用。
哈希表嵌套过深 ：在哈希表中嵌套多层哈希表，会使数据结构复杂，难以维护，并且查询和修改操作会变得低效。
无序集合遍历顺序 ：集合是无序的，在需要特定顺序遍历集合元素时，不能依赖 Redis 集合的默认遍历顺序，可能需要在应用层进行排序。
ZSet 范围查询边界问题 ：在使用ZRANGEBYSCORE等命令进行范围查询时，对边界值（如包含或不包含端点）的处理如果不清晰，会导致查询结果不符合预期。

持久化

RDB 快照丢失数据 ：RDB 是定期快照，在两次快照之间如果发生故障，可能会丢失这段时间内的数据更新。
AOF 重写引发阻塞 ：AOF 重写过程中可能会阻塞主线程，尤其是在数据量较大时，导致 Redis 在一段时间内响应缓慢。
AOF 文件过大 ：如果不及时清理和优化 AOF 文件，随着写入操作的增加，AOF 文件会持续增大，占用过多磁盘空间，并且可能影响 Redis 的启动时间。
混合持久化兼容性 ：虽然混合持久化结合了 RDB 和 AOF 的优点，但在一些特殊的 Redis 版本或配置下，可能会出现兼容性问题，导致数据恢复异常。
持久化配置不当 ：例如错误配置 RDB 快照的时间间隔、AOF 的fsync策略等，可能会严重影响数据安全性和性能。
持久化设备性能瓶颈 ：如果持久化存储设备（如磁盘）性能低下，会导致 RDB 快照和 AOF 写入缓慢，进而影响 Redis 整体性能。

内存管理

内存溢出（OOM） ：如果没有合理配置 Redis 的最大内存，或者数据量增长超出预期，可能会导致内存溢出，使 Redis 崩溃。
内存碎片率过高 ：频繁的键值对插入和删除操作可能导致内存碎片率升高，降低内存利用率，影响 Redis 性能。可以通过INFO memory命令查看mem_fragmentation_ratio指标，过高时可考虑重启 Redis 整理内存。
未释放内存 ：删除大 key 后，虽然数据不再存在，但内存可能不会立即被操作系统回收，尤其是在使用 jemalloc 等内存分配器时，可能需要一段时间才能释放。
缓存穿透 ：查询不存在的数据时，每次都穿透到后端存储（如数据库），增加后端压力，并且如果恶意请求，可能导致后端存储崩溃。可以通过布隆过滤器等方式预防。
缓存雪崩 ：大量缓存同时过期，导致请求瞬间涌向后端存储，可能使后端服务不堪重负。可以通过设置不同的过期时间，避免集中过期。
缓存击穿 ：热点数据的缓存过期瞬间，大量请求同时访问，直接穿透到后端，可能造成后端服务压力过大。可以使用互斥锁或永不过期结合定时更新的策略应对。

客户端使用

客户端连接泄漏 ：在应用程序中，如果没有正确管理 Redis 客户端连接，可能会导致连接泄漏，耗尽系统资源。
客户端超时设置不合理 ：如果客户端的连接超时、读取超时等设置过短，可能导致正常操作被误判为失败；设置过长则可能在服务端出现问题时，客户端长时间等待。
客户端并发问题 ：多个客户端同时对同一数据进行读写操作时，如果没有正确的同步机制，可能会导致数据不一致问题。
客户端版本兼容性 ：使用不兼容的 Redis 客户端版本，可能会遇到命令不支持、数据格式解析错误等问题。
误操作客户端命令 ：例如在客户端中错误地输入命令参数，导致命令执行结果不符合预期。

集群与分布式

集群节点故障 ：Redis 集群中某个节点故障时，如果没有正确配置故障转移机制，可能会导致部分数据不可访问。
脑裂问题 ：在网络分区情况下，集群可能出现脑裂，即部分节点形成多个小集群，导致数据不一致和服务异常。可以通过设置合适的参数（如cluster - require - full - coverage）来避免。
数据迁移卡顿 ：在集群进行数据迁移（如节点扩容、缩容）时，可能会出现卡顿现象，影响服务可用性。
跨节点事务 ：Redis 集群不支持跨节点的原子事务操作，如果业务逻辑依赖于跨节点的事务一致性，需要在应用层实现分布式事务解决方案。
集群配置错误 ：例如错误配置集群节点的 IP、端口，或者没有正确设置集群的节点关系，会导致集群无法正常工作。
集群状态同步延迟 ：集群节点之间状态同步可能存在延迟，在某些情况下可能会影响数据读写的一致性。

性能与优化

慢查询问题 ：部分复杂命令或大 key 操作可能导致慢查询，影响 Redis 的整体性能。可以通过slowlog命令查看慢查询日志，优化相关操作。
网络延迟 ：Redis 服务器与客户端之间的网络延迟过高，会导致响应时间变长，影响应用性能。需要确保网络稳定，减少延迟。
CPU 使用率过高 ：某些复杂的计算操作（如大量的排序、聚合）在 Redis 中执行可能导致 CPU 使用率过高，应尽量将这类操作放在应用层处理。
不合理的管道使用 ：虽然管道（Pipeline）可以减少网络交互次数提高性能，但如果管道中命令过多，可能会导致客户端和服务端的缓冲区溢出，并且可能增加延迟。
未启用多线程 ：从 Redis 6.0 开始支持多线程 I/O，若未合理启用，可能无法充分利用多核 CPU 的性能优势。

安全

密码设置过于简单 ：如果 Redis 设置的密码过于简单，容易被暴力破解，导致数据泄露和非法操作。
暴露公网端口 ：将 Redis 的服务端口直接暴露在公网上，而没有采取足够的安全防护措施，容易受到外部攻击。
未授权访问 ：如果 Redis 没有设置密码或访问控制，任何人都可以连接并操作 Redis，可能导致数据丢失或被篡改。
数据加密缺失 ：对于一些敏感数据，如果没有在客户端进行加密处理，在网络传输过程中可能被窃取。

其他

Lua 脚本问题 ：在使用 Lua 脚本时，如果脚本编写不当，可能会出现内存泄漏、逻辑错误等问题，并且 Lua 脚本执行期间会阻塞 Redis 主线程。
事务回滚 ：Redis 事务中如果某个命令执行失败，默认不会回滚已执行的命令，需要在应用层处理这种情况，确保业务逻辑的正确性。
命令不支持版本差异 ：不同 Redis 版本支持的命令集可能有所不同，在升级或切换版本时，需要注意某些命令是否仍然可用。
监控与报警缺失 ：没有对 Redis 的关键指标（如内存使用、QPS、命中率等）进行监控和设置合理的报警机制，可能无法及时发现和处理潜在问题。
配置文件备份 ：没有定期备份 Redis 的配置文件，一旦服务器出现故障或配置丢失，可能难以恢复到原有的配置状态。
升级风险 ：Redis 升级过程中可能会遇到兼容性问题，如数据格式变化、新特性与现有业务不兼容等，需要在升级前进行充分的测试。
数据恢复测试缺失 ：定期进行数据恢复测试是确保持久化数据有效性的重要手段，如果缺失该测试，在真正需要恢复数据时可能会发现无法成功恢复。
多实例资源竞争 ：在同一台服务器上部署多个 Redis 实例时，如果没有合理分配资源（如 CPU、内存、磁盘 I/O），可能会导致实例之间相互竞争，影响性能。
系统资源限制 ：操作系统对文件描述符、内存等资源有一定限制，如果没有适当调整，可能会限制 Redis 的性能和可扩展性。
数据一致性验证 ：在进行数据读写操作后，没有对数据的一致性进行验证，可能会导致潜在的数据错误长期未被发现。