AWS VPC NAT 网关可观测最佳实践

AWS VPC NAT 网关介绍

AWS VPC NAT 网关是一种网络地址转换 (NATI) 服务。您可以使用 NAT 网关,以便私有子网中的实例可以连接到 VPC 外部的服务,但外部服务无法启动与这些实例的连接。

  • 完全托管服务:由 AWS 负责管理,用户无需自行维护,如安装软件更新或操作系统补丁等,大大减少了管理工作量
  • 高带宽:可以纵向扩展到 100Gbps,能够轻松应对高流量场景,满足大规模应用的需求。
  • 冗余设计:每个可用区中的 NAT 网关都采用冗余实施,可自动处理故障转移,无需用户干预,从而确保服务的持续可用性。支持多可用区部署,可避免单点故障,进一步提高网络整体的可靠性

监控 VPC NAT 网关的必要性在于网络管理员通常需要了解 NAT 网关的运行状况和性能,从而能够密切监视网关的运行状况并快速排查任何问题。

观测云

观测云是一款专为 IT 工程师打造的全链路可观测产品,它集成了基础设施监控、应用程序性能监控和日志管理,为整个技术栈提供实时可观察性。这款产品能够帮助工程师全面了解端到端的用户体验追踪,了解应用内函数的每一次调用,以及全面监控云时代的基础设施。此外,观测云还具备快速发现系统安全风险的能力,为数字化时代提供安全保障。

采集器配置

  1. 登录观测云控制台
  2. 点击【集成】菜单,选择【云账号管理】
  3. 点击【添加云账号】,选择【AWS】,填写界面所需的信息,如之前已配置过云账号信息,则忽略此步骤
  4. 点击【测试】,测试成功后点击【保存】,如果测试失败,请检查相关配置信息是否正确,并重新测试
  5. 点击【云账号管理】列表上可以看到已添加的云账号,点击相应的云账号,进入详情页
  6. 点击云账号详情页的【集成】按钮,在未安装列表下,找到 AWS VPC NAT GATEWAY,点击【安装】按钮,弹出安装界面安装即可,点击【安装】按钮,弹出安装界面安装即可

关键指标

指标 描述 单位
ActiveConnectionCount 通过 NAT 网关激活的并发 TCP 连接的总数。零值表示未通过 NAT 网关激活任何连接。 Statistics:最有用的统计工具是 Max。 Count
BytesInFromDestination NAT 网关从目标接收的字节的数量。如果 BytesOutToSource 的值小于 BytesInFromDestination 的值,则表示 NAT 网关处理期间可能存在数据丢失,或存在被 NAT 网关主动阻止的流量。 Statistics:最有用的统计工具是 Sum。 Byte
BytesInFromSource NAT 网关从 VPC 中的客户端接收的字节的数量。如果 BytesOutToDestination 的值小于 BytesInFromSource 的值,则 NAT 网关处理期间可能有数据丢失。 Statistics:最有用的统计工具是 Sum。 Byte
BytesOutToDestination 通过 NAT 网关发送到目标的字节的数量。大于零的值指示有流量从 NAT 网关后面的客户端流向 Internet。如果 BytesOutToDestination 的值小于 BytesInFromSource 的值,则 NAT 网关处理期间可能有数据丢失。 Statistics:最有用的统计工具是 Sum。 Byte
BytesOutToSource 通过 NAT 网关发送到 VPC 中客户端的字节的数量。大于零的值指示有流量从 Internet 流向 NAT 网关后面的客户端。如果 BytesOutToSource 的值小于 BytesInFromDestination 的值,则表示 NAT 网关处理期间可能存在数据丢失,或存在被 NAT 网关主动阻止的流量。 Statistics:最有用的统计工具是 Sum。 Byte
ConnectionAttemptCount 通过 NAT 网关尝试的连接次数。这仅包括初始 SYN。在某些情况下,由于 SYN 重新传输,ConnectionAttemptCount 可能低于 ConnectionEstablishedCount。如果 ConnectionEstablishedCount 的值小于 ConnectionAttemptCount 的值,则表示 NAT 网关后面的客户端已尝试为无响应的连接建立新连接。 Statistics:最有用的统计工具是 Sum。 Count
ConnectionEstablishedCount 通过 NAT 网关建立的连接的数量。这包括 SYN 和 SYN 重新传输。如果 ConnectionEstablishedCount 的值小于 ConnectionAttemptCount 的值,则表示 NAT 网关后面的客户端已尝试为无响应的连接建立新连接。 Statistics:最有用的统计工具是 Sum。 Count
ErrorPortAllocation NAT 网关无法分配源端口的次数。大于零的值表示通过 NAT 网关打开的并发连接太多。 Statistics:最有用的统计工具是 Sum。 Count
IdleTimeoutCount 从活动状态转换为空闲状态的连接的数量。如果活动连接未正常关闭并且前 350 秒内无活动,活动连接将转换为空闲状态。大于零的值指示存在已变为空闲状态的连接。如果 IdleTimeoutCount 的值增加,则可能指示 NAT 网关后面的客户端正在重复使用过期连接。单位:计数 Statistics:最有用的统计工具是 Sum。 Count
PacketsDropCount NAT 网关丢弃的数据包的数量。要计算丢弃的数据包数量占数据包总流量的百分比,请使用以下公式:PacketsDropCount/(PacketsInFromSource+PacketsInFromDestination)*100。如果该值超过 NAT 网关上总流量的 0.01%,则 Amazon VPC 服务可能存在问题。使用 AWS 服务运行状况控制面板来确定可能导致 NAT 网关丢包的服务问题。 Statistics:最有用的统计工具是 Sum。 Count
PacketsInFromDestination NAT 网关从目标接收的数据包的数量。如果 PacketsOutToSource 的值小于 PacketsInFromDestination 的值,则表示 NAT 网关处理期间可能存在数据丢失,或存在被 NAT 网关主动阻止的流量。 Statistics:最有用的统计工具是 Sum。 Count
PacketsInFromSource NAT 网关从 VPC 中的客户端接收的数据包的数量。如果 PacketsOutToDestination 的值小于 PacketsInFromSource 的值,则 NAT 网关处理期间可能有数据丢失。 Statistics:最有用的统计工具是 Sum。 Count
PacketsOutToDestination 通过 NAT 网关发送到目标的数据包的数量。大于零的值指示有流量从 NAT 网关后面的客户端流向 Internet。如果 PacketsOutToDestination 的值小于 PacketsInFromSource 的值,则 NAT 网关处理期间可能有数据丢失。单位:计数 Statistics:最有用的统计工具是 Sum。 Count
PacketsOutToSource 通过 NAT 网关发送到 VPC 中客户端的数据包的数量。大于零的值指示有流量从 Internet 流向 NAT 网关后面的客户端。如果 PacketsOutToSource 的值小于 PacketsInFromDestination 的值,则表示 NAT 网关处理期间可能存在数据丢失,或存在被 NAT 网关主动阻止的流量。 Statistics:最有用的统计工具是 Sum。 Count
PeakBytesPerSecond 该指标报告给定分钟内每秒的 10 秒字节最高平均值。 Statistics:最有用的统计工具是 Maximum。 Count
PeakPacketsPerSecond 此指标每 10 秒计算一次平均数据包速率(每秒处理的数据包),持续 60 秒,然后报告六个速率中的最大值(最高平均数据包速率)。 Statistics:最有用的统计工具是 Maximum。 Count

场景视图

登录观测云控制台,点击「场景」 -「新建仪表板」,输入 "AWS VPC NAT GATEWAY", 选择 "AWS VPC NAT GATEWAY",点击 "确定" 即可添加视图。

监控器(告警)

VPC_NAT_GATEWAY丢包百分比过高告警
VPC_NAT_GATEWAY无法分配源端口告警

总结

AWS VPC NAT 网关提供了一种高效、可靠的网络地址转换方案。观测云通过采集该服务的监控指标,以便网络管理员人员可以全面了解 VPC NAT GATEWAY 服务的运行状态并快速排查任何问题。

相关推荐
₯㎕星空&繁华1 小时前
阿里云服务器安装MySQL服务器
服务器·ubuntu·阿里云·云计算
你的大佬99913 小时前
阿里云百炼ai模型
人工智能·阿里云·云计算
一只栖枝14 小时前
备考华为HCIA - 云计算,培训与自学到底该怎么选?
云计算·华为认证·hcia·考证·职业规划
数据与人工智能律师20 小时前
AI的法治迷宫:技术层、模型层、应用层的法律痛点
大数据·网络·人工智能·云计算·区块链
荣光波比1 天前
Docker(三)—— Docker Compose 编排与 Harbor 私有仓库实战指南
运维·docker·容器·云计算
企鹅侠客1 天前
mysqldump导入备份数据到阿里云RDS会报错吗
阿里云·adb·云计算
iHero1 天前
【Jitsi Meet】阿里云Docker安装Jitsi Meet后的调整
阿里云·docker·云计算
荣光波比2 天前
Ansible(三)—— 使用Ansible自动化部署LNMP环境实战指南
运维·自动化·云计算·ansible
荣光波比2 天前
Docker(五)—— Docker Compose 一键搭建 LNMP 架构并部署 WordPress
运维·docker·容器·云计算
mjhcsp2 天前
深入解析 IDM 插件开发挑战赛:技术要点与实践指南
服务器·阿里云·云计算