AWS VPC NAT 网关介绍
AWS VPC NAT 网关是一种网络地址转换 (NATI) 服务。您可以使用 NAT 网关,以便私有子网中的实例可以连接到 VPC 外部的服务,但外部服务无法启动与这些实例的连接。
- 完全托管服务:由 AWS 负责管理,用户无需自行维护,如安装软件更新或操作系统补丁等,大大减少了管理工作量
- 高带宽:可以纵向扩展到 100Gbps,能够轻松应对高流量场景,满足大规模应用的需求。
- 冗余设计:每个可用区中的 NAT 网关都采用冗余实施,可自动处理故障转移,无需用户干预,从而确保服务的持续可用性。支持多可用区部署,可避免单点故障,进一步提高网络整体的可靠性
监控 VPC NAT 网关的必要性在于网络管理员通常需要了解 NAT 网关的运行状况和性能,从而能够密切监视网关的运行状况并快速排查任何问题。
观测云
观测云是一款专为 IT 工程师打造的全链路可观测产品,它集成了基础设施监控、应用程序性能监控和日志管理,为整个技术栈提供实时可观察性。这款产品能够帮助工程师全面了解端到端的用户体验追踪,了解应用内函数的每一次调用,以及全面监控云时代的基础设施。此外,观测云还具备快速发现系统安全风险的能力,为数字化时代提供安全保障。
采集器配置
- 登录观测云控制台
- 点击【集成】菜单,选择【云账号管理】
- 点击【添加云账号】,选择【AWS】,填写界面所需的信息,如之前已配置过云账号信息,则忽略此步骤
- 点击【测试】,测试成功后点击【保存】,如果测试失败,请检查相关配置信息是否正确,并重新测试
- 点击【云账号管理】列表上可以看到已添加的云账号,点击相应的云账号,进入详情页
- 点击云账号详情页的【集成】按钮,在未安装列表下,找到 AWS VPC NAT GATEWAY,点击【安装】按钮,弹出安装界面安装即可,点击【安装】按钮,弹出安装界面安装即可
关键指标
指标 | 描述 | 单位 |
---|---|---|
ActiveConnectionCount | 通过 NAT 网关激活的并发 TCP 连接的总数。零值表示未通过 NAT 网关激活任何连接。 Statistics:最有用的统计工具是 Max。 | Count |
BytesInFromDestination | NAT 网关从目标接收的字节的数量。如果 BytesOutToSource 的值小于 BytesInFromDestination 的值,则表示 NAT 网关处理期间可能存在数据丢失,或存在被 NAT 网关主动阻止的流量。 Statistics:最有用的统计工具是 Sum。 | Byte |
BytesInFromSource | NAT 网关从 VPC 中的客户端接收的字节的数量。如果 BytesOutToDestination 的值小于 BytesInFromSource 的值,则 NAT 网关处理期间可能有数据丢失。 Statistics:最有用的统计工具是 Sum。 | Byte |
BytesOutToDestination | 通过 NAT 网关发送到目标的字节的数量。大于零的值指示有流量从 NAT 网关后面的客户端流向 Internet。如果 BytesOutToDestination 的值小于 BytesInFromSource 的值,则 NAT 网关处理期间可能有数据丢失。 Statistics:最有用的统计工具是 Sum。 | Byte |
BytesOutToSource | 通过 NAT 网关发送到 VPC 中客户端的字节的数量。大于零的值指示有流量从 Internet 流向 NAT 网关后面的客户端。如果 BytesOutToSource 的值小于 BytesInFromDestination 的值,则表示 NAT 网关处理期间可能存在数据丢失,或存在被 NAT 网关主动阻止的流量。 Statistics:最有用的统计工具是 Sum。 | Byte |
ConnectionAttemptCount | 通过 NAT 网关尝试的连接次数。这仅包括初始 SYN。在某些情况下,由于 SYN 重新传输,ConnectionAttemptCount 可能低于 ConnectionEstablishedCount。如果 ConnectionEstablishedCount 的值小于 ConnectionAttemptCount 的值,则表示 NAT 网关后面的客户端已尝试为无响应的连接建立新连接。 Statistics:最有用的统计工具是 Sum。 | Count |
ConnectionEstablishedCount | 通过 NAT 网关建立的连接的数量。这包括 SYN 和 SYN 重新传输。如果 ConnectionEstablishedCount 的值小于 ConnectionAttemptCount 的值,则表示 NAT 网关后面的客户端已尝试为无响应的连接建立新连接。 Statistics:最有用的统计工具是 Sum。 | Count |
ErrorPortAllocation | NAT 网关无法分配源端口的次数。大于零的值表示通过 NAT 网关打开的并发连接太多。 Statistics:最有用的统计工具是 Sum。 | Count |
IdleTimeoutCount | 从活动状态转换为空闲状态的连接的数量。如果活动连接未正常关闭并且前 350 秒内无活动,活动连接将转换为空闲状态。大于零的值指示存在已变为空闲状态的连接。如果 IdleTimeoutCount 的值增加,则可能指示 NAT 网关后面的客户端正在重复使用过期连接。单位:计数 Statistics:最有用的统计工具是 Sum。 | Count |
PacketsDropCount | NAT 网关丢弃的数据包的数量。要计算丢弃的数据包数量占数据包总流量的百分比,请使用以下公式:PacketsDropCount/(PacketsInFromSource+PacketsInFromDestination)*100。如果该值超过 NAT 网关上总流量的 0.01%,则 Amazon VPC 服务可能存在问题。使用 AWS 服务运行状况控制面板来确定可能导致 NAT 网关丢包的服务问题。 Statistics:最有用的统计工具是 Sum。 | Count |
PacketsInFromDestination | NAT 网关从目标接收的数据包的数量。如果 PacketsOutToSource 的值小于 PacketsInFromDestination 的值,则表示 NAT 网关处理期间可能存在数据丢失,或存在被 NAT 网关主动阻止的流量。 Statistics:最有用的统计工具是 Sum。 | Count |
PacketsInFromSource | NAT 网关从 VPC 中的客户端接收的数据包的数量。如果 PacketsOutToDestination 的值小于 PacketsInFromSource 的值,则 NAT 网关处理期间可能有数据丢失。 Statistics:最有用的统计工具是 Sum。 | Count |
PacketsOutToDestination | 通过 NAT 网关发送到目标的数据包的数量。大于零的值指示有流量从 NAT 网关后面的客户端流向 Internet。如果 PacketsOutToDestination 的值小于 PacketsInFromSource 的值,则 NAT 网关处理期间可能有数据丢失。单位:计数 Statistics:最有用的统计工具是 Sum。 | Count |
PacketsOutToSource | 通过 NAT 网关发送到 VPC 中客户端的数据包的数量。大于零的值指示有流量从 Internet 流向 NAT 网关后面的客户端。如果 PacketsOutToSource 的值小于 PacketsInFromDestination 的值,则表示 NAT 网关处理期间可能存在数据丢失,或存在被 NAT 网关主动阻止的流量。 Statistics:最有用的统计工具是 Sum。 | Count |
PeakBytesPerSecond | 该指标报告给定分钟内每秒的 10 秒字节最高平均值。 Statistics:最有用的统计工具是 Maximum。 | Count |
PeakPacketsPerSecond | 此指标每 10 秒计算一次平均数据包速率(每秒处理的数据包),持续 60 秒,然后报告六个速率中的最大值(最高平均数据包速率)。 Statistics:最有用的统计工具是 Maximum。 | Count |
场景视图
登录观测云控制台,点击「场景」 -「新建仪表板」,输入 "AWS VPC NAT GATEWAY", 选择 "AWS VPC NAT GATEWAY",点击 "确定" 即可添加视图。




监控器(告警)
VPC_NAT_GATEWAY丢包百分比过高告警


VPC_NAT_GATEWAY无法分配源端口告警


总结
AWS VPC NAT 网关提供了一种高效、可靠的网络地址转换方案。观测云通过采集该服务的监控指标,以便网络管理员人员可以全面了解 VPC NAT GATEWAY 服务的运行状态并快速排查任何问题。