AWS VPC NAT 网关可观测最佳实践

AWS VPC NAT 网关介绍

AWS VPC NAT 网关是一种网络地址转换 (NATI) 服务。您可以使用 NAT 网关,以便私有子网中的实例可以连接到 VPC 外部的服务,但外部服务无法启动与这些实例的连接。

  • 完全托管服务:由 AWS 负责管理,用户无需自行维护,如安装软件更新或操作系统补丁等,大大减少了管理工作量
  • 高带宽:可以纵向扩展到 100Gbps,能够轻松应对高流量场景,满足大规模应用的需求。
  • 冗余设计:每个可用区中的 NAT 网关都采用冗余实施,可自动处理故障转移,无需用户干预,从而确保服务的持续可用性。支持多可用区部署,可避免单点故障,进一步提高网络整体的可靠性

监控 VPC NAT 网关的必要性在于网络管理员通常需要了解 NAT 网关的运行状况和性能,从而能够密切监视网关的运行状况并快速排查任何问题。

观测云

观测云是一款专为 IT 工程师打造的全链路可观测产品,它集成了基础设施监控、应用程序性能监控和日志管理,为整个技术栈提供实时可观察性。这款产品能够帮助工程师全面了解端到端的用户体验追踪,了解应用内函数的每一次调用,以及全面监控云时代的基础设施。此外,观测云还具备快速发现系统安全风险的能力,为数字化时代提供安全保障。

采集器配置

  1. 登录观测云控制台
  2. 点击【集成】菜单,选择【云账号管理】
  3. 点击【添加云账号】,选择【AWS】,填写界面所需的信息,如之前已配置过云账号信息,则忽略此步骤
  4. 点击【测试】,测试成功后点击【保存】,如果测试失败,请检查相关配置信息是否正确,并重新测试
  5. 点击【云账号管理】列表上可以看到已添加的云账号,点击相应的云账号,进入详情页
  6. 点击云账号详情页的【集成】按钮,在未安装列表下,找到 AWS VPC NAT GATEWAY,点击【安装】按钮,弹出安装界面安装即可,点击【安装】按钮,弹出安装界面安装即可

关键指标

指标 描述 单位
ActiveConnectionCount 通过 NAT 网关激活的并发 TCP 连接的总数。零值表示未通过 NAT 网关激活任何连接。 Statistics:最有用的统计工具是 Max。 Count
BytesInFromDestination NAT 网关从目标接收的字节的数量。如果 BytesOutToSource 的值小于 BytesInFromDestination 的值,则表示 NAT 网关处理期间可能存在数据丢失,或存在被 NAT 网关主动阻止的流量。 Statistics:最有用的统计工具是 Sum。 Byte
BytesInFromSource NAT 网关从 VPC 中的客户端接收的字节的数量。如果 BytesOutToDestination 的值小于 BytesInFromSource 的值,则 NAT 网关处理期间可能有数据丢失。 Statistics:最有用的统计工具是 Sum。 Byte
BytesOutToDestination 通过 NAT 网关发送到目标的字节的数量。大于零的值指示有流量从 NAT 网关后面的客户端流向 Internet。如果 BytesOutToDestination 的值小于 BytesInFromSource 的值,则 NAT 网关处理期间可能有数据丢失。 Statistics:最有用的统计工具是 Sum。 Byte
BytesOutToSource 通过 NAT 网关发送到 VPC 中客户端的字节的数量。大于零的值指示有流量从 Internet 流向 NAT 网关后面的客户端。如果 BytesOutToSource 的值小于 BytesInFromDestination 的值,则表示 NAT 网关处理期间可能存在数据丢失,或存在被 NAT 网关主动阻止的流量。 Statistics:最有用的统计工具是 Sum。 Byte
ConnectionAttemptCount 通过 NAT 网关尝试的连接次数。这仅包括初始 SYN。在某些情况下,由于 SYN 重新传输,ConnectionAttemptCount 可能低于 ConnectionEstablishedCount。如果 ConnectionEstablishedCount 的值小于 ConnectionAttemptCount 的值,则表示 NAT 网关后面的客户端已尝试为无响应的连接建立新连接。 Statistics:最有用的统计工具是 Sum。 Count
ConnectionEstablishedCount 通过 NAT 网关建立的连接的数量。这包括 SYN 和 SYN 重新传输。如果 ConnectionEstablishedCount 的值小于 ConnectionAttemptCount 的值,则表示 NAT 网关后面的客户端已尝试为无响应的连接建立新连接。 Statistics:最有用的统计工具是 Sum。 Count
ErrorPortAllocation NAT 网关无法分配源端口的次数。大于零的值表示通过 NAT 网关打开的并发连接太多。 Statistics:最有用的统计工具是 Sum。 Count
IdleTimeoutCount 从活动状态转换为空闲状态的连接的数量。如果活动连接未正常关闭并且前 350 秒内无活动,活动连接将转换为空闲状态。大于零的值指示存在已变为空闲状态的连接。如果 IdleTimeoutCount 的值增加,则可能指示 NAT 网关后面的客户端正在重复使用过期连接。单位:计数 Statistics:最有用的统计工具是 Sum。 Count
PacketsDropCount NAT 网关丢弃的数据包的数量。要计算丢弃的数据包数量占数据包总流量的百分比,请使用以下公式:PacketsDropCount/(PacketsInFromSource+PacketsInFromDestination)*100。如果该值超过 NAT 网关上总流量的 0.01%,则 Amazon VPC 服务可能存在问题。使用 AWS 服务运行状况控制面板来确定可能导致 NAT 网关丢包的服务问题。 Statistics:最有用的统计工具是 Sum。 Count
PacketsInFromDestination NAT 网关从目标接收的数据包的数量。如果 PacketsOutToSource 的值小于 PacketsInFromDestination 的值,则表示 NAT 网关处理期间可能存在数据丢失,或存在被 NAT 网关主动阻止的流量。 Statistics:最有用的统计工具是 Sum。 Count
PacketsInFromSource NAT 网关从 VPC 中的客户端接收的数据包的数量。如果 PacketsOutToDestination 的值小于 PacketsInFromSource 的值,则 NAT 网关处理期间可能有数据丢失。 Statistics:最有用的统计工具是 Sum。 Count
PacketsOutToDestination 通过 NAT 网关发送到目标的数据包的数量。大于零的值指示有流量从 NAT 网关后面的客户端流向 Internet。如果 PacketsOutToDestination 的值小于 PacketsInFromSource 的值,则 NAT 网关处理期间可能有数据丢失。单位:计数 Statistics:最有用的统计工具是 Sum。 Count
PacketsOutToSource 通过 NAT 网关发送到 VPC 中客户端的数据包的数量。大于零的值指示有流量从 Internet 流向 NAT 网关后面的客户端。如果 PacketsOutToSource 的值小于 PacketsInFromDestination 的值,则表示 NAT 网关处理期间可能存在数据丢失,或存在被 NAT 网关主动阻止的流量。 Statistics:最有用的统计工具是 Sum。 Count
PeakBytesPerSecond 该指标报告给定分钟内每秒的 10 秒字节最高平均值。 Statistics:最有用的统计工具是 Maximum。 Count
PeakPacketsPerSecond 此指标每 10 秒计算一次平均数据包速率(每秒处理的数据包),持续 60 秒,然后报告六个速率中的最大值(最高平均数据包速率)。 Statistics:最有用的统计工具是 Maximum。 Count

场景视图

登录观测云控制台,点击「场景」 -「新建仪表板」,输入 "AWS VPC NAT GATEWAY", 选择 "AWS VPC NAT GATEWAY",点击 "确定" 即可添加视图。

监控器(告警)

VPC_NAT_GATEWAY丢包百分比过高告警
VPC_NAT_GATEWAY无法分配源端口告警

总结

AWS VPC NAT 网关提供了一种高效、可靠的网络地址转换方案。观测云通过采集该服务的监控指标,以便网络管理员人员可以全面了解 VPC NAT GATEWAY 服务的运行状态并快速排查任何问题。

相关推荐
AI_56781 天前
AWS EC2新手入门:6步带你从零启动实例
大数据·数据库·人工智能·机器学习·aws
孤岛悬城1 天前
37 日志分析:ELK(Elasticsearch+Logstash+Kibana)
云计算
珠海西格电力科技1 天前
微电网能量平衡理论的实现条件在不同场景下有哪些差异?
运维·服务器·网络·人工智能·云计算·智慧城市
Sheffield2 天前
command和shell模块到底区别在哪?
linux·云计算·ansible
DolitD2 天前
云流技术深度剖析:国内云渲染主流技术与开源和海外厂商技术实测对比
功能测试·云原生·开源·云计算·实时云渲染
翼龙云_cloud2 天前
阿里云渠道商:阿里云 ECS 从安全组到云防火墙的实战防护指南
安全·阿里云·云计算
YongCheng_Liang2 天前
从零开始学虚拟化:桌面虚拟化(VDI)入门指南(架构 + 产品 + 部署)
运维·云计算
万物得其道者成2 天前
阿里云 H5 一键登录接入实战:前后端完整实现
阿里云·云计算·状态模式
翼龙云_cloud2 天前
国际云代理商:2026年国际云注册风控升级实战指南 8 大平台无卡解决方案对比
服务器·阿里云·云计算
阿里云大数据AI技术3 天前
全模态、多引擎、一体化,阿里云DLF3.0构建Data+AI驱动的智能湖仓平台
人工智能·阿里云·云计算