MongoDB集群中的一个典型的错误

1.案例

(1)现象:主备节点中,发生了切换,且原来的主节点mongo服务宕掉,且不能重新启动,检查了是不是防火墙和网路导致的,结果不是。

(2)从日志来看,报错信息如下:

部分粘贴:

复制代码
{"t":{"$date":"2024-12-16T14:11:50.300+08:00"},"s":"I",  "c":"ROLLBACK", "id":21611,   "ctx":"BackgroundSync","msg":"Transition to SECONDARY"}
{"t":{"$date":"2024-12-16T14:11:50.300+08:00"},"s":"I",  "c":"REPL",     "id":21358,   "ctx":"BackgroundSync","msg":"Replica set state transition","attr":{"newState":"SECONDARY","oldState":"ROLLBACK"}}
{"t":{"$date":"2024-12-16T14:11:50.300+08:00"},"s":"I",  "c":"REPL",     "id":21106,   "ctx":"BackgroundSync","msg":"Resetting sync source to empty","attr":{"previousSyncSource":"192.168.32.217:27017"}}
{"t":{"$date":"2024-12-16T14:11:50.300+08:00"},"s":"F",  "c":"REPL",     "id":21128,   "ctx":"BackgroundSync","msg":"Rollback failed with unrecoverable error","attr":{"error":{"code":127,"codeName":"UnrecoverableRollbackError","errmsg":"not willing to roll back more than 86400 seconds of data. Have: 226356 seconds."}}}
{"t":{"$date":"2024-12-16T14:11:50.300+08:00"},"s":"F",  "c":"-",        "id":23095,   "ctx":"BackgroundSync","msg":"Fatal assertion","attr":{"msgid":50666,"error":"UnrecoverableRollbackError: not willing to roll back more than 86400 seconds of data. Have: 226356 seconds.","file":"src/mongo/db/repl/bgsync.cpp","line":807}}
{"t":{"$date":"2024-12-16T14:11:50.300+08:00"},"s":"F",  "c":"-",        "id":23096,   "ctx":"BackgroundSync","msg":"\n\n***aborting after fassert() failure\n\n"}

2.原因

发现该错误是,主备节点数据不同步的一种表现:

这个错误信息来自MongoDB的复制集(replica set)环境,具体涉及到背景同步(BackgroundSync)过程。错误指出在尝试回滚数据时遇到了问题,因为它不愿意回滚超过86400秒(即24小时)的数据,但当前需要回滚的数据量已经达到了226356秒,远远超过了限制。

(1)原因1:回滚时间过长:MongoDB复制集中的从节点(secondary)在某些情况下(如网络分区、长时间离线后重新加入等)需要回滚(rollback)以保持一致性。这里的错误表明需要回滚的时间过长,超出了MongoDB预设的安全限制。

(2)原因2:预设限制:MongoDB默认设置了最大回滚时间为24小时(86400秒),这是为了防止在极端情况下从节点与主节点(primary)之间的差异过大,导致回滚操作过于复杂和耗时,进而影响系统的稳定性和性能。

3.解决办法

解决办法1:改大回滚时间则可;但是不建议这种方法,这种方法是在实在没有其他的解决办法的情况下紧急使用一下。

解决办法2:可以将正常的mongo机器中的数据传输到宕机的那一台的存放数据文件的文件夹中即可。再进行重启后发现集群状态正常。

各节点状态:

注意:我宕机的那一台的数据文件我也进行了备份存放到了其他的地方,万一恢复过程中有问题,需要用到的话,可以有仍有余。

相关推荐
weelinking5 小时前
【产品】12_接入数据库——让数据永久保存
jvm·数据库·python·react.js·数据挖掘·前端框架·产品经理
稳联技术老娜5 小时前
DeviceNet主站怎么连接西门子PLC,Profinet网关配置手册(那智机器人)
服务器·网络·数据库
这个DBA有点耶6 小时前
云上运维新挑战:当数据库不再“看得见摸得着”
数据库·sql·程序人生·云原生·运维开发·学习方法·dba
AskHarries7 小时前
系统提示词、开发者指令和用户输入的优先级
java·前端·数据库
消失在人海中7 小时前
oracle 数据库多表关联查询
服务器·数据库·oracle
九皇叔叔7 小时前
PostgreSQL/openGauss pg_stats 视图从入门到精通:统计信息、执行计划与慢 SQL 优化实战
数据库·sql·postgresql
南极企鹅8 小时前
MySQL间隙锁&临键锁
数据库·sql·mysql
TDengine (老段)9 小时前
TDengine 压缩编码机制 — 双层压缩架构与类型特化算法
大数据·数据库·物联网·算法·时序数据库·tdengine·涛思数据
苏渡苇10 小时前
Redis 持久化——RDB 快照 vs AOF 日志
数据库·redis·缓存·redis持久化·aof vs rdb
l1t10 小时前
DeepSeek总结的使用 PEG 实现运行时可扩展的 SQL 解析器
数据库·sql