双机双卡训练yolov5(yolov5+pytorch+DDP+NCCL+RDMA全栈解析)

重点关注问题:

1、nvidia-smi topo -m 是怎么获取topo结构的?调用了什么api?

2、以下接口有什么用,怎么实现的?

nvmlDeveiceGetNvLinkVersion

nvmlDeveiceGetNvLinkCapability

nvmlDeveiceGetNvLinkState

nvmlDeveiceGetNvLinkErrorCounter

nvmlDeveiceResetNvLinkErrorCounters

nvmlDeveiceGetNvLinkRemotePciInfo

nvmlDeveiceGetP2PStatus

3、单机单进程P2P场景使用一下接口,具体有什么用,怎么实现的?

cudaDeviceCanAccessPeer

cudaDeviceEnablePeerAccess

cudaMemcpyPeer

4、以下是单机多进程P2P,具体有什么用,怎么实现的?

cudaIpcGetMemHandle

cudaIpcOpenMemHandle

cudaIpcCloseMemHandle

cudaIpcGetEventHandle

cudaIpcOpenEventHandle

5、NCCL是怎么获取topo结构的?

6、NCCL通过nvml获取本地拓扑,多机拓扑是怎么获取的呢?

7、pytorch如何调用DDP?

8、DDP如何调用NCCP?

9、NCCL如何调用RDMA?

10、怎么理解RING和TREE?

相关推荐
用户938515635074 分钟前
从 Prompt 到 Harness:AI 工程化的三年跃迁与实战解码
javascript·人工智能
甲维斯37 分钟前
Agnes免费生图批图API+一键生图软件!
人工智能
April6661 小时前
Prompt-only 已死,Harness 才是 2026 的分水岭
人工智能
没落英雄1 小时前
从零开始搭建一个 AI Agent —— LangChain + TypeScript 实战手记
前端·人工智能·架构
web_Leon2 小时前
为什么越来越多的大厂抛弃MCP,转向CLI?
人工智能·ai编程
用户3615567288182 小时前
给VSCode写个扩展,选中代码就问AI,SSE坑不少
人工智能
武子康2 小时前
调查研究-203 SpaceX IPO 总览:先别急着讲故事,先把发行事实和信息边界立住
人工智能·openai·agent
IT_陈寒3 小时前
Redis内存飙升的锅,原来是我没搞懂这个过期策略
前端·人工智能·后端
东坡肘子4 小时前
SPI 加入 Apple,Swift 迈向自举 -- 肘子的 Swift 周报 #142
人工智能·swiftui·swift