错误报告:WebSocket 设备连接断开处理问题

错误报告:WebSocket 设备连接断开处理问题

项目背景

  1. 设备通过自启动的客户端连接到服务器,服务器将设备的 mac_address 和设备信息存入 Redis。
  2. 前端通过 Redis 接口查看设备信息并展示。

问题描述

设备连接到服务器后,前端无法立即看到设备信息。

发现的问题

  1. 设备连接后直接关机:在设备关机的情况下,服务器未及时收到断开连接的信号。由于 TCP Keep-Alive 的机制,测试中发现需要约 45 秒才会自动触发断开连接。
  2. 设备重新开机:设备重新启动后重新连接服务器。此时服务器加速了断开连接的触发(约 28 秒),但是服务器错误地删除了 Redis 中的记录。实际上,设备的连接并没有真正断开。通过向 Redis 中重新写入相同的信息,验证了 Redis 中的设备信息并未真正丢失。

目前的处理方式

为了应对上述问题,做了以下改进:

  1. 增加了校验机制:当服务器接收到断开连接时,增加了对 Redis 中存储的设备信息的检查。
  2. 心跳机制:为了更好地管理连接,预留了一个 PingPong 心跳机制,用于检测连接的有效性。由于设备端版本原因,并不全支持 pong 回应,暂时未启用这个机制,预留了一个 heartbeat ping 的函数,但它不响应 pong,后续有需要可以进一步完善。

处理方法

disconnect 方法中增加了校验机制,以确保只有在正确的条件下删除 Redis 中的设备信息。

python 复制代码
@staticmethod
async def disconnect(ws: WebSocket, client: AsyncRedis, mac_address: str) -> None:
    remote_ip, remote_port = ws.client
    current_client_info = await client.hget(settings.REDIS_WS_CLIENT_KEY, mac_address)
    current_client_info = json.loads(current_client_info)

    if current_client_info:
        logger.info(f"WS_LIFESPAN: {mac_address} 正在清除状态")

        # 如果没有 remote port,那么说明这个链接异常,可以直接清理
        current_remote_port = current_client_info.get("remote_port", remote_port)

        # 如果旧的 ws client port 等于现在的 port,说明存储的信息仍然是当前链接的信息,可以删除
        if current_remote_port == remote_port:
            await WsService.remove_client(client, mac_address)
            logger.info(f"WS_LIFESPAN: {mac_address} 清除状态完成")
        else:
            logger.info(f"WS_LIFESPAN: {mac_address} 当前连接已被新连接替代,跳过清理")
    else:
        logger.info(f"WS_LIFESPAN: {mac_address} 未在 Redis 中找到客户端记录,跳过清理")

预留的 heartbeat 如下

python 复制代码
    async def send_heartbeat():
        """心跳检测
         - 目前只在服务器单方面检测
         - 如果 ping 发送失败,则认为断线,关闭连接
        """
        while True:
            await asyncio.sleep(PING_INTERVAL)
            try:
                ping_msg = {"action": "ping", "timestamp": get_current_datetime_str()}
                await ws.send_text(json.dumps(ping_msg))
                logger.info(f"WS_LIFESPAN: {mac_address} 发送ping")
            except Exception as e:
                logger.error(f"WS_LIFESPAN: {mac_address} 发送ping消息失败,连接可能已断开: {str(e)}")
                break

    # 启动心跳检测任务
    # heartbeat_task = asyncio.create_task(send_heartbeat())

在 client 端中预留了一个 pong 机制如下 client >= 0.2.1

python 复制代码
async def handle_ping(ws: WebSocketClientProtocol, **params):
    """处理 Ping,返回 Pong"""
    pong_msg = {"action": "pong"}
    await ws.send(json.dumps(pong_msg))

解决方案

  1. TCP Keep-Alive 设置可以考虑调整 TCP Keep-Alive 设置,以加快服务器检测到设备断开的速度,从而减少等待时间。 这会影响整个设备的 TCP Keep Alive,尽量不进行
  2. 心跳机制:进一步完善 PingPong 心跳机制,确保定时检查连接是否有效。如果检测到设备失去连接,可以更快地清除 Redis 中的记录。
  3. 断开连接的逻辑加强:在断开连接的逻辑中增加更多的校验,确保只有当设备断开并且确实不再连接时才从 Redis 中移除其信息。

总结

通过对 WebSocket 断开连接的处理逻辑进行增强,增加了对 Redis 存储的校验机制,可以有效避免由于设备重新启动时,错误地删除 Redis 中的设备信息。此外,心跳机制的加入也进一步提升了连接的管理效率。

相关推荐
叫我小秦就好了2 小时前
TCP 和 UDP 可以绑定相同的端口吗?
网络协议·tcp/ip·udp
Dingdangr3 小时前
网络安全的正确认知
网络·安全·web安全
hanniuniu133 小时前
防火墙是什么?详解网络安全的关键守护者
网络·安全·web安全
爱吃喵的鲤鱼3 小时前
Linux——网络(https)
linux·网络·https
祈澈菇凉3 小时前
详细解释一下HTTPS握手过程中的密钥交换?
网络协议·http·https
戎梓漩4 小时前
RESTful API 和 WebSocket 的区别
后端·websocket·restful
_Eden_4 小时前
Netty初学五 客户端与服务端通信协议编解码
java·服务器·网络