INT 技术实现流量路径预览:RoCE网络监控小工具的深度解析

在AI大模型训练与分布式计算高速发展的今天,RoCE网络早已成为智算中心的核心基础设施。然而,传统监控手段难以捕捉数据包在每一跳交换机上的真实行为。带内网络遥测(INT) 的出现,让网络团队第一次拥有了"流量路径预览"的能力。本文聚焦INT技术中的IPT(带内路径遥测),结合RoCE网络监控需求,深入解析如何实现对端到端路径的精准透视与实时预警。

什么是INT?为什么需要流量路径预览?

INT(In-band Network Telemetry)是一种将网络监控能力嵌入数据平面转发路径的技术。与传统的SNMP轮询或sFlow采样不同,INT能够在数据包经过每个节点时,实时收集时延、队列深度、端口状态等信息。

所谓流量路径预览,就是通过网络模拟或实际探测包,提前或实时展示数据包从入口到出口将经过哪些交换节点、每跳的延迟与队列状态,从而帮助运维人员预判性能瓶颈。

在RoCE网络中,这种能力尤为关键。RoCE协议对丢包和时延极其敏感,一个队列的轻微拥塞就可能导致全局训练任务退化为秒级等待。通过INT实现路径预览,网络管理员可以在故障发生前识别风险节点,做到主动运维而非被动救火。

聚焦IPT:带内路径遥测的核心价值

INT包含BDC、HDC和IPT等多种实现方式。其中IPT(In-band Path Telemetry) 专注于端到端路径质量的精细化监控。它不直接修改业务报文,而是通过生成独立的探测包,沿原始业务路径收集每一跳的统计信息,最终形成完整的路径质量视图。

IPT报文结构与关键字段解析

IPT报文由多层头部构成,包括外层L2/L3封装、GRE头部、IPT Shim头部、探针标记(Probe Marker)、IPT Base Header以及各节点的统计信息(IPT Hop Information)。每一跳都会插入以下关键数据:

  1. Switch ID节点设备标识
  2. Queue Size Info转发时实时队列占用大小
  3. Ingress/Egress Timestamp Info入/出时间戳
  4. Sinfo / Dinfo入接口与出接口信息

这些字段共同构成了每条流量的"数字足迹",为路径预览提供了数据基础。

入口、传输、出口节点如何协同工作

IPT的工作流程围绕三个角色展开:

  • 入口节点:识别目标流量,复制并截断原始报文,封装IPT头部与探针标记,确保探测包与原报文走相同路径。
  • 传输节点:识别探针标记,追加本节点的元数据(如队列深度、设备ID),硬件透传,不阻塞业务流量。
  • 出口节点:补全最后一个节点的信息,终止探测包并将完整路径数据封装发送给采集器。

这一协同机制使得流量路径预览不再依赖主观推测,而是基于真实转发行为的逐跳数据还原。

什么是 TPE?

EasyRoCE-TPE(流量路径预览,Traffic Path Explorer)的实现基础就来自于交换机具备的 IPT(Inband Path Telemetry)带内网络监控技术:

交换机启⽤IPT功能后,对于到达入口节点(Ingress Node)的每个特定流量原始数据包,交换机都会⽣成⼀个探测数据包,这个探测数据包是原始数据包的克隆(payload部分被截断),携带探针标记(probe marker)。

  • 无侵入:不会影响既有业务,且整个TPE独立部署于单独的机器不会影响集群网络交换机;
  • 容器化部署:整个TPE以容器方式部署,不影响监控服务器的其他服务;
  • 可视化界面:用户全程在图形化界面操作,并且网络信息以图形化方式呈现;操作简单,直观查看交换机状态。

TPE 由两部分组成:IPT 控制页面和 IPT 可视化页面。

TPE 控制页面

TPE提供了一个可视化界面来配置IPT的规则,用户完成交换机的规则配置后,打开IPT开关即可通过SSH完成相关配置的下发工作。

TPE 可视化界面

完成交换机的配置后,可视化界面将基于之前配置的规则生成拓扑,并同时检测服务器的网络接口。

当使能了 IPT 功能的交换机发送 IPT 报文给 TPE 时,TPE会解析并在可视化界面进行展示,此时在拓扑上可呈现每个交换机节点的最新的状态信息。

部署与使用

最新版本的TPE工具请联系项目销售/售前人员获取;部署TPE工具的服务器必须接入管理网络和交换机的INT网络中。

编辑AID,添加交换机的INT信息

我们需要在EasyRoCE-AID(基础设施蓝图规划)工具里按照真实的网络拓扑规划添加交换机信息,以便 TPE 能够在运行时自动获取到正确的设备信息。

  • 设备名称:交换机的hostname,全局唯一
  • 网络类型:按现网真实拓扑来划分交换机类型,分计算网络、存储网以及管理网
  • 设备角色:Spine、Leaf类型,按设备真实角色填写即可
  • 设备型号:设备的真实类型,须如实填写以确保工具解析正确
  • 管理地址:用于配置下发

在服务器上安装 TPE 工具

#上传TPE的容器镜像到服务器中

复制代码
#上传TPE的容器镜像到服务器中
scp tpe-v1.0.1.tgz root@10.240.3.5:/tmp/
# 导入镜像
docker load -i tpe-v1.0.1.tgz
# 运行容器
docker run -d --name=tpe --network host --privileged -v /tmp/tpe/data:/app/data tpe:v1.0.1

现在可以通过Grafana面板URL:http://10.240.3.5:3000/d/xxxxxx (示例) 来访问操作TPE。

访问和操作 TPE 工具

以上 TPE 配置页所呈现的效果,便于演示,此处我们已预先添加了一些交换机的 IPT 规则,实际使用时用户可在配置界面自行添加所需规则。

手动配置IPT规则

  1. 手动添加IPT规则需要遵循如下要求:
  2. 入节点需要添加业务进入的设备端口,出节点需要添加业务进入的端口以及INT地址;
  3. 所有设备的Switch ID唯一且同一链路的Probe Marker必须保持相同。

配置交换机角色:Ingress/Egress/Transit

主要配置项:

  • Switch ID:纯数字,全局唯一,与AID一致
  • Ports:交换机仅对已配置接口的报文进行监控采样
  • Probe Marker:为64位配置值,同一链路的ProbeM arker必须保持相同,最⾼2字节必须为0
  • Trigger Mode: 分为 Sampling Mode (全量报文概率采样)和按照 DSCP 过滤采样两种
  • Source IP:对于Egress角色,需填写交换机Source IP(INT接口地址),该IP作为源IP地址用于IPT报文最外层IPT头封装,目的IP为TPE所在服务器IP。egress 节点会按照三层路由将 IPT 报文发送给 TPE 服务器用于最终的解析呈现

完成每个节点的配置,打开行末的开关即可完成配置下发工作。

查看 TPE 可视化界面

完成配置后点击可视化按钮 Visual Interface 即可跳转报文解析页面。
此时可以看到根据之前配置的信息生成的一条IPT路径。

点击图上设备或者线路则能显示最新的IPT报文所展示的交换机的状态信息,下方则是 TPE 所解析的最新的 IPT 报文详情。

从学术研究到真实部署,INT技术正在重新定义智算网络的运维方式。基于INT的流量路径预览,特别是IPT方案,为RoCE网络提供了前所未有的透明度和可控性。当每一次数据包的旅程都可以被回放、每一跳的延迟都可以被量化,网络就不再是AI训练中的"黑盒"。如果您正在建设或优化智算中心网络,不妨从INT开始,让路径可见、让问题可预测。

相关推荐
火山上的企鹅10 小时前
Codex实战:APP远程升级服务搭建(三)后台管理页面(APK 上传、版本管理、多应用页签)
服务器·网络·数据库·oracle·qgc
caimouse10 小时前
Reactos 第 9 章 设备驱动 — 9.5 一组PnP设备驱动模块的实例
网络·windows
袁小皮皮不皮10 小时前
3.HCIP OSPF补充知识(优化版)
服务器·网络·数据库·网络协议·智能路由器
志栋智能11 小时前
超自动化巡检:知识沉淀与团队协作的新载体
大数据·运维·网络·数据库·人工智能·自动化
酣大智12 小时前
策略路由PBR--企业双出口实验
网络·智能路由器·策略路由·pbr
袁小皮皮不皮12 小时前
1.HCIP BFD 学习笔记(优化版)
服务器·网络·笔记·网络协议·学习·智能路由器·ip
梁辰兴12 小时前
计算机网络基础:数据加密模型
网络·计算机网络·计算机·数据加密·计算机网络基础·梁辰兴·数据加密模型
fofantasy13 小时前
NSK LH12AN 微型导轨技术手册
运维·网络·数据库·经验分享·规格说明书
网络系统管理13 小时前
第八届江苏技能状元大赛“信息通信网络运行管理”项目技术文件
网络
福建佰胜张工13 小时前
3HNA006643-001 BRACKET ZB/CCIB:ABB 喷涂机器人关键结构件深度解析
网络·机器人