AWS VPC NAT 网关可观测最佳实践

AWS VPC NAT 网关介绍

AWS VPC NAT 网关是一种网络地址转换 (NATI) 服务。您可以使用 NAT 网关,以便私有子网中的实例可以连接到 VPC 外部的服务,但外部服务无法启动与这些实例的连接。

  • 完全托管服务:由 AWS 负责管理,用户无需自行维护,如安装软件更新或操作系统补丁等,大大减少了管理工作量
  • 高带宽:可以纵向扩展到 100Gbps,能够轻松应对高流量场景,满足大规模应用的需求。
  • 冗余设计:每个可用区中的 NAT 网关都采用冗余实施,可自动处理故障转移,无需用户干预,从而确保服务的持续可用性。支持多可用区部署,可避免单点故障,进一步提高网络整体的可靠性

监控 VPC NAT 网关的必要性在于网络管理员通常需要了解 NAT 网关的运行状况和性能,从而能够密切监视网关的运行状况并快速排查任何问题。

观测云

观测云是一款专为 IT 工程师打造的全链路可观测产品,它集成了基础设施监控、应用程序性能监控和日志管理,为整个技术栈提供实时可观察性。这款产品能够帮助工程师全面了解端到端的用户体验追踪,了解应用内函数的每一次调用,以及全面监控云时代的基础设施。此外,观测云还具备快速发现系统安全风险的能力,为数字化时代提供安全保障。

采集器配置

  1. 登录观测云控制台
  2. 点击【集成】菜单,选择【云账号管理】
  3. 点击【添加云账号】,选择【AWS】,填写界面所需的信息,如之前已配置过云账号信息,则忽略此步骤
  4. 点击【测试】,测试成功后点击【保存】,如果测试失败,请检查相关配置信息是否正确,并重新测试
  5. 点击【云账号管理】列表上可以看到已添加的云账号,点击相应的云账号,进入详情页
  6. 点击云账号详情页的【集成】按钮,在未安装列表下,找到 AWS VPC NAT GATEWAY,点击【安装】按钮,弹出安装界面安装即可,点击【安装】按钮,弹出安装界面安装即可

关键指标

指标 描述 单位
ActiveConnectionCount 通过 NAT 网关激活的并发 TCP 连接的总数。零值表示未通过 NAT 网关激活任何连接。 Statistics:最有用的统计工具是 Max。 Count
BytesInFromDestination NAT 网关从目标接收的字节的数量。如果 BytesOutToSource 的值小于 BytesInFromDestination 的值,则表示 NAT 网关处理期间可能存在数据丢失,或存在被 NAT 网关主动阻止的流量。 Statistics:最有用的统计工具是 Sum。 Byte
BytesInFromSource NAT 网关从 VPC 中的客户端接收的字节的数量。如果 BytesOutToDestination 的值小于 BytesInFromSource 的值,则 NAT 网关处理期间可能有数据丢失。 Statistics:最有用的统计工具是 Sum。 Byte
BytesOutToDestination 通过 NAT 网关发送到目标的字节的数量。大于零的值指示有流量从 NAT 网关后面的客户端流向 Internet。如果 BytesOutToDestination 的值小于 BytesInFromSource 的值,则 NAT 网关处理期间可能有数据丢失。 Statistics:最有用的统计工具是 Sum。 Byte
BytesOutToSource 通过 NAT 网关发送到 VPC 中客户端的字节的数量。大于零的值指示有流量从 Internet 流向 NAT 网关后面的客户端。如果 BytesOutToSource 的值小于 BytesInFromDestination 的值,则表示 NAT 网关处理期间可能存在数据丢失,或存在被 NAT 网关主动阻止的流量。 Statistics:最有用的统计工具是 Sum。 Byte
ConnectionAttemptCount 通过 NAT 网关尝试的连接次数。这仅包括初始 SYN。在某些情况下,由于 SYN 重新传输,ConnectionAttemptCount 可能低于 ConnectionEstablishedCount。如果 ConnectionEstablishedCount 的值小于 ConnectionAttemptCount 的值,则表示 NAT 网关后面的客户端已尝试为无响应的连接建立新连接。 Statistics:最有用的统计工具是 Sum。 Count
ConnectionEstablishedCount 通过 NAT 网关建立的连接的数量。这包括 SYN 和 SYN 重新传输。如果 ConnectionEstablishedCount 的值小于 ConnectionAttemptCount 的值,则表示 NAT 网关后面的客户端已尝试为无响应的连接建立新连接。 Statistics:最有用的统计工具是 Sum。 Count
ErrorPortAllocation NAT 网关无法分配源端口的次数。大于零的值表示通过 NAT 网关打开的并发连接太多。 Statistics:最有用的统计工具是 Sum。 Count
IdleTimeoutCount 从活动状态转换为空闲状态的连接的数量。如果活动连接未正常关闭并且前 350 秒内无活动,活动连接将转换为空闲状态。大于零的值指示存在已变为空闲状态的连接。如果 IdleTimeoutCount 的值增加,则可能指示 NAT 网关后面的客户端正在重复使用过期连接。单位:计数 Statistics:最有用的统计工具是 Sum。 Count
PacketsDropCount NAT 网关丢弃的数据包的数量。要计算丢弃的数据包数量占数据包总流量的百分比,请使用以下公式:PacketsDropCount/(PacketsInFromSource+PacketsInFromDestination)*100。如果该值超过 NAT 网关上总流量的 0.01%,则 Amazon VPC 服务可能存在问题。使用 AWS 服务运行状况控制面板来确定可能导致 NAT 网关丢包的服务问题。 Statistics:最有用的统计工具是 Sum。 Count
PacketsInFromDestination NAT 网关从目标接收的数据包的数量。如果 PacketsOutToSource 的值小于 PacketsInFromDestination 的值,则表示 NAT 网关处理期间可能存在数据丢失,或存在被 NAT 网关主动阻止的流量。 Statistics:最有用的统计工具是 Sum。 Count
PacketsInFromSource NAT 网关从 VPC 中的客户端接收的数据包的数量。如果 PacketsOutToDestination 的值小于 PacketsInFromSource 的值,则 NAT 网关处理期间可能有数据丢失。 Statistics:最有用的统计工具是 Sum。 Count
PacketsOutToDestination 通过 NAT 网关发送到目标的数据包的数量。大于零的值指示有流量从 NAT 网关后面的客户端流向 Internet。如果 PacketsOutToDestination 的值小于 PacketsInFromSource 的值,则 NAT 网关处理期间可能有数据丢失。单位:计数 Statistics:最有用的统计工具是 Sum。 Count
PacketsOutToSource 通过 NAT 网关发送到 VPC 中客户端的数据包的数量。大于零的值指示有流量从 Internet 流向 NAT 网关后面的客户端。如果 PacketsOutToSource 的值小于 PacketsInFromDestination 的值,则表示 NAT 网关处理期间可能存在数据丢失,或存在被 NAT 网关主动阻止的流量。 Statistics:最有用的统计工具是 Sum。 Count
PeakBytesPerSecond 该指标报告给定分钟内每秒的 10 秒字节最高平均值。 Statistics:最有用的统计工具是 Maximum。 Count
PeakPacketsPerSecond 此指标每 10 秒计算一次平均数据包速率(每秒处理的数据包),持续 60 秒,然后报告六个速率中的最大值(最高平均数据包速率)。 Statistics:最有用的统计工具是 Maximum。 Count

场景视图

登录观测云控制台,点击「场景」 -「新建仪表板」,输入 "AWS VPC NAT GATEWAY", 选择 "AWS VPC NAT GATEWAY",点击 "确定" 即可添加视图。

监控器(告警)

VPC_NAT_GATEWAY丢包百分比过高告警

VPC_NAT_GATEWAY无法分配源端口告警

总结

AWS VPC NAT 网关提供了一种高效、可靠的网络地址转换方案。观测云通过采集该服务的监控指标,以便网络管理员人员可以全面了解 VPC NAT GATEWAY 服务的运行状态并快速排查任何问题。

相关推荐
带你去吃小豆花1 天前
20年AWS服务进化史
云计算·aws
阿雄不会写代码3 天前
AWS OpenSearch 是什么
云计算·aws
m0_748254093 天前
阿里云详解:与 AWS、GCP 的全方位比较
阿里云·云计算·aws
AWS官方合作商4 天前
零性能妥协:Gearbox Entertainment 通过 AWS 和 Perforce 实现远程开发革命
大数据·云计算·aws
无责任此方_修行中7 天前
从 HTTP 轮询到 MQTT:我们在 AWS IoT Core 上的架构演进与实战复盘
后端·架构·aws
weixin_307779139 天前
AWS Lambda解压缩S3 ZIP文件流程
python·算法·云计算·aws
在云上(oncloudai)13 天前
AWS KMS VS AWS Cloud HSM VS AWS Secret Manager?
云计算·aws
大斯斯13 天前
AWS 亚马逊云预警通知接入钉钉告警(微信同样适用)
aws
大斯斯13 天前
AWS 通过 CloudWatch 实现应用日志告警
aws
指剑17 天前
借助Rclone快速从阿里云OSS迁移到AWS S3
阿里云·云计算·迁移学习·aws·亚马逊云科技·rclone