INT 技术实现流量路径预览：RoCE网络监控小工具的深度解析

在AI大模型训练与分布式计算高速发展的今天，RoCE网络早已成为智算中心的核心基础设施。然而，传统监控手段难以捕捉数据包在每一跳交换机上的真实行为。带内网络遥测（INT）的出现，让网络团队第一次拥有了"流量路径预览"的能力。本文聚焦INT技术中的IPT（带内路径遥测），结合RoCE网络监控需求，深入解析如何实现对端到端路径的精准透视与实时预警。

什么是INT？为什么需要流量路径预览？

INT（In-band Network Telemetry）是一种将网络监控能力嵌入数据平面转发路径的技术。与传统的SNMP轮询或sFlow采样不同，INT能够在数据包经过每个节点时，实时收集时延、队列深度、端口状态等信息。

所谓流量路径预览，就是通过网络模拟或实际探测包，提前或实时展示数据包从入口到出口将经过哪些交换节点、每跳的延迟与队列状态，从而帮助运维人员预判性能瓶颈。

在RoCE网络中，这种能力尤为关键。RoCE协议对丢包和时延极其敏感，一个队列的轻微拥塞就可能导致全局训练任务退化为秒级等待。通过INT实现路径预览，网络管理员可以在故障发生前识别风险节点，做到主动运维而非被动救火。

聚焦IPT：带内路径遥测的核心价值

INT包含BDC、HDC和IPT等多种实现方式。其中IPT（In-band Path Telemetry）专注于端到端路径质量的精细化监控。它不直接修改业务报文，而是通过生成独立的探测包，沿原始业务路径收集每一跳的统计信息，最终形成完整的路径质量视图。

IPT报文结构与关键字段解析

IPT报文由多层头部构成，包括外层L2/L3封装、GRE头部、IPT Shim头部、探针标记（Probe Marker）、IPT Base Header以及各节点的统计信息（IPT Hop Information）。每一跳都会插入以下关键数据：

Switch ID节点设备标识
Queue Size Info转发时实时队列占用大小
Ingress/Egress Timestamp Info入/出时间戳
Sinfo / Dinfo入接口与出接口信息

这些字段共同构成了每条流量的"数字足迹"，为路径预览提供了数据基础。

入口、传输、出口节点如何协同工作

IPT的工作流程围绕三个角色展开：

入口节点：识别目标流量，复制并截断原始报文，封装IPT头部与探针标记，确保探测包与原报文走相同路径。
传输节点：识别探针标记，追加本节点的元数据（如队列深度、设备ID），硬件透传，不阻塞业务流量。
出口节点：补全最后一个节点的信息，终止探测包并将完整路径数据封装发送给采集器。

这一协同机制使得流量路径预览不再依赖主观推测，而是基于真实转发行为的逐跳数据还原。

什么是 TPE？

EasyRoCE-TPE（流量路径预览，Traffic Path Explorer）的实现基础就来自于交换机具备的 IPT（Inband Path Telemetry）带内网络监控技术：

交换机启⽤IPT功能后，对于到达入口节点（Ingress Node）的每个特定流量原始数据包，交换机都会⽣成⼀个探测数据包，这个探测数据包是原始数据包的克隆（payload部分被截断），携带探针标记（probe marker）。

无侵入：不会影响既有业务，且整个TPE独立部署于单独的机器不会影响集群网络交换机；
容器化部署：整个TPE以容器方式部署，不影响监控服务器的其他服务；
可视化界面：用户全程在图形化界面操作，并且网络信息以图形化方式呈现；操作简单，直观查看交换机状态。

TPE 由两部分组成：IPT 控制页面和 IPT 可视化页面。

TPE 控制页面

TPE提供了一个可视化界面来配置IPT的规则，用户完成交换机的规则配置后，打开IPT开关即可通过SSH完成相关配置的下发工作。

TPE 可视化界面

完成交换机的配置后，可视化界面将基于之前配置的规则生成拓扑，并同时检测服务器的网络接口。

当使能了 IPT 功能的交换机发送 IPT 报文给 TPE 时，TPE会解析并在可视化界面进行展示，此时在拓扑上可呈现每个交换机节点的最新的状态信息。

部署与使用

最新版本的TPE工具请联系项目销售/售前人员获取；部署TPE工具的服务器必须接入管理网络和交换机的INT网络中。

编辑AID，添加交换机的INT信息

我们需要在EasyRoCE-AID（基础设施蓝图规划）工具里按照真实的网络拓扑规划添加交换机信息，以便 TPE 能够在运行时自动获取到正确的设备信息。

设备名称：交换机的hostname，全局唯一
网络类型：按现网真实拓扑来划分交换机类型，分计算网络、存储网以及管理网
设备角色：Spine、Leaf类型，按设备真实角色填写即可
设备型号：设备的真实类型，须如实填写以确保工具解析正确
管理地址：用于配置下发

在服务器上安装 TPE 工具

#上传TPE的容器镜像到服务器中

复制代码

#上传TPE的容器镜像到服务器中
scp tpe-v1.0.1.tgz root@10.240.3.5:/tmp/
# 导入镜像
docker load -i tpe-v1.0.1.tgz
# 运行容器
docker run -d --name=tpe --network host --privileged -v /tmp/tpe/data:/app/data tpe:v1.0.1

现在可以通过Grafana面板URL：http://10.240.3.5:3000/d/xxxxxx (示例) 来访问操作TPE。

访问和操作 TPE 工具

以上 TPE 配置页所呈现的效果，便于演示，此处我们已预先添加了一些交换机的 IPT 规则，实际使用时用户可在配置界面自行添加所需规则。

手动配置IPT规则

手动添加IPT规则需要遵循如下要求：
入节点需要添加业务进入的设备端口，出节点需要添加业务进入的端口以及INT地址；
所有设备的Switch ID唯一且同一链路的Probe Marker必须保持相同。

配置交换机角色：Ingress/Egress/Transit

主要配置项：

Switch ID：纯数字，全局唯一，与AID一致
Ports：交换机仅对已配置接口的报文进行监控采样
Probe Marker：为64位配置值，同一链路的ProbeM arker必须保持相同，最⾼2字节必须为0
Trigger Mode: 分为 Sampling Mode （全量报文概率采样）和按照 DSCP 过滤采样两种
Source IP：对于Egress角色，需填写交换机Source IP（INT接口地址），该IP作为源IP地址用于IPT报文最外层IPT头封装，目的IP为TPE所在服务器IP。egress 节点会按照三层路由将 IPT 报文发送给 TPE 服务器用于最终的解析呈现

完成每个节点的配置，打开行末的开关即可完成配置下发工作。

查看 TPE 可视化界面

完成配置后点击可视化按钮 Visual Interface 即可跳转报文解析页面。
此时可以看到根据之前配置的信息生成的一条IPT路径。

点击图上设备或者线路则能显示最新的IPT报文所展示的交换机的状态信息，下方则是 TPE 所解析的最新的 IPT 报文详情。

从学术研究到真实部署，INT技术正在重新定义智算网络的运维方式。基于INT的流量路径预览，特别是IPT方案，为RoCE网络提供了前所未有的透明度和可控性。当每一次数据包的旅程都可以被回放、每一跳的延迟都可以被量化，网络就不再是AI训练中的"黑盒"。如果您正在建设或优化智算中心网络，不妨从INT开始，让路径可见、让问题可预测。