在AI大模型训练与分布式计算高速发展的今天,RoCE网络早已成为智算中心的核心基础设施。然而,传统监控手段难以捕捉数据包在每一跳交换机上的真实行为。带内网络遥测(INT) 的出现,让网络团队第一次拥有了"流量路径预览"的能力。本文聚焦INT技术中的IPT(带内路径遥测),结合RoCE网络监控需求,深入解析如何实现对端到端路径的精准透视与实时预警。
什么是INT?为什么需要流量路径预览?
INT(In-band Network Telemetry)是一种将网络监控能力嵌入数据平面转发路径的技术。与传统的SNMP轮询或sFlow采样不同,INT能够在数据包经过每个节点时,实时收集时延、队列深度、端口状态等信息。
所谓流量路径预览,就是通过网络模拟或实际探测包,提前或实时展示数据包从入口到出口将经过哪些交换节点、每跳的延迟与队列状态,从而帮助运维人员预判性能瓶颈。
在RoCE网络中,这种能力尤为关键。RoCE协议对丢包和时延极其敏感,一个队列的轻微拥塞就可能导致全局训练任务退化为秒级等待。通过INT实现路径预览,网络管理员可以在故障发生前识别风险节点,做到主动运维而非被动救火。
聚焦IPT:带内路径遥测的核心价值
INT包含BDC、HDC和IPT等多种实现方式。其中IPT(In-band Path Telemetry) 专注于端到端路径质量的精细化监控。它不直接修改业务报文,而是通过生成独立的探测包,沿原始业务路径收集每一跳的统计信息,最终形成完整的路径质量视图。

IPT报文结构与关键字段解析
IPT报文由多层头部构成,包括外层L2/L3封装、GRE头部、IPT Shim头部、探针标记(Probe Marker)、IPT Base Header以及各节点的统计信息(IPT Hop Information)。每一跳都会插入以下关键数据:
- Switch ID节点设备标识
- Queue Size Info转发时实时队列占用大小
- Ingress/Egress Timestamp Info入/出时间戳
- Sinfo / Dinfo入接口与出接口信息
这些字段共同构成了每条流量的"数字足迹",为路径预览提供了数据基础。
入口、传输、出口节点如何协同工作
IPT的工作流程围绕三个角色展开:
- 入口节点:识别目标流量,复制并截断原始报文,封装IPT头部与探针标记,确保探测包与原报文走相同路径。
- 传输节点:识别探针标记,追加本节点的元数据(如队列深度、设备ID),硬件透传,不阻塞业务流量。
- 出口节点:补全最后一个节点的信息,终止探测包并将完整路径数据封装发送给采集器。
这一协同机制使得流量路径预览不再依赖主观推测,而是基于真实转发行为的逐跳数据还原。
什么是 TPE?
EasyRoCE-TPE(流量路径预览,Traffic Path Explorer)的实现基础就来自于交换机具备的 IPT(Inband Path Telemetry)带内网络监控技术:
交换机启⽤IPT功能后,对于到达入口节点(Ingress Node)的每个特定流量原始数据包,交换机都会⽣成⼀个探测数据包,这个探测数据包是原始数据包的克隆(payload部分被截断),携带探针标记(probe marker)。

- 无侵入:不会影响既有业务,且整个TPE独立部署于单独的机器不会影响集群网络交换机;
- 容器化部署:整个TPE以容器方式部署,不影响监控服务器的其他服务;
- 可视化界面:用户全程在图形化界面操作,并且网络信息以图形化方式呈现;操作简单,直观查看交换机状态。
TPE 由两部分组成:IPT 控制页面和 IPT 可视化页面。
TPE 控制页面
TPE提供了一个可视化界面来配置IPT的规则,用户完成交换机的规则配置后,打开IPT开关即可通过SSH完成相关配置的下发工作。
TPE 可视化界面
完成交换机的配置后,可视化界面将基于之前配置的规则生成拓扑,并同时检测服务器的网络接口。
当使能了 IPT 功能的交换机发送 IPT 报文给 TPE 时,TPE会解析并在可视化界面进行展示,此时在拓扑上可呈现每个交换机节点的最新的状态信息。
部署与使用
最新版本的TPE工具请联系项目销售/售前人员获取;部署TPE工具的服务器必须接入管理网络和交换机的INT网络中。
编辑AID,添加交换机的INT信息

我们需要在EasyRoCE-AID(基础设施蓝图规划)工具里按照真实的网络拓扑规划添加交换机信息,以便 TPE 能够在运行时自动获取到正确的设备信息。
- 设备名称:交换机的hostname,全局唯一
- 网络类型:按现网真实拓扑来划分交换机类型,分计算网络、存储网以及管理网
- 设备角色:Spine、Leaf类型,按设备真实角色填写即可
- 设备型号:设备的真实类型,须如实填写以确保工具解析正确
- 管理地址:用于配置下发
在服务器上安装 TPE 工具
#上传TPE的容器镜像到服务器中
#上传TPE的容器镜像到服务器中
scp tpe-v1.0.1.tgz root@10.240.3.5:/tmp/
# 导入镜像
docker load -i tpe-v1.0.1.tgz
# 运行容器
docker run -d --name=tpe --network host --privileged -v /tmp/tpe/data:/app/data tpe:v1.0.1
现在可以通过Grafana面板URL:http://10.240.3.5:3000/d/xxxxxx (示例) 来访问操作TPE。
访问和操作 TPE 工具

以上 TPE 配置页所呈现的效果,便于演示,此处我们已预先添加了一些交换机的 IPT 规则,实际使用时用户可在配置界面自行添加所需规则。
手动配置IPT规则
- 手动添加IPT规则需要遵循如下要求:
- 入节点需要添加业务进入的设备端口,出节点需要添加业务进入的端口以及INT地址;
- 所有设备的Switch ID唯一且同一链路的Probe Marker必须保持相同。
配置交换机角色:Ingress/Egress/Transit
主要配置项:
- Switch ID:纯数字,全局唯一,与AID一致
- Ports:交换机仅对已配置接口的报文进行监控采样
- Probe Marker:为64位配置值,同一链路的ProbeM arker必须保持相同,最⾼2字节必须为0
- Trigger Mode: 分为 Sampling Mode (全量报文概率采样)和按照 DSCP 过滤采样两种
- Source IP:对于Egress角色,需填写交换机Source IP(INT接口地址),该IP作为源IP地址用于IPT报文最外层IPT头封装,目的IP为TPE所在服务器IP。egress 节点会按照三层路由将 IPT 报文发送给 TPE 服务器用于最终的解析呈现
完成每个节点的配置,打开行末的开关即可完成配置下发工作。
查看 TPE 可视化界面
完成配置后点击可视化按钮 Visual Interface 即可跳转报文解析页面。
此时可以看到根据之前配置的信息生成的一条IPT路径。
点击图上设备或者线路则能显示最新的IPT报文所展示的交换机的状态信息,下方则是 TPE 所解析的最新的 IPT 报文详情。
从学术研究到真实部署,INT技术正在重新定义智算网络的运维方式。基于INT的流量路径预览,特别是IPT方案,为RoCE网络提供了前所未有的透明度和可控性。当每一次数据包的旅程都可以被回放、每一跳的延迟都可以被量化,网络就不再是AI训练中的"黑盒"。如果您正在建设或优化智算中心网络,不妨从INT开始,让路径可见、让问题可预测。