双机双卡训练yolov5(yolov5+pytorch+DDP+NCCL+RDMA全栈解析)

重点关注问题:

1、nvidia-smi topo -m 是怎么获取topo结构的?调用了什么api?

2、以下接口有什么用,怎么实现的?

nvmlDeveiceGetNvLinkVersion

nvmlDeveiceGetNvLinkCapability

nvmlDeveiceGetNvLinkState

nvmlDeveiceGetNvLinkErrorCounter

nvmlDeveiceResetNvLinkErrorCounters

nvmlDeveiceGetNvLinkRemotePciInfo

nvmlDeveiceGetP2PStatus

3、单机单进程P2P场景使用一下接口,具体有什么用,怎么实现的?

cudaDeviceCanAccessPeer

cudaDeviceEnablePeerAccess

cudaMemcpyPeer

4、以下是单机多进程P2P,具体有什么用,怎么实现的?

cudaIpcGetMemHandle

cudaIpcOpenMemHandle

cudaIpcCloseMemHandle

cudaIpcGetEventHandle

cudaIpcOpenEventHandle

5、NCCL是怎么获取topo结构的?

6、NCCL通过nvml获取本地拓扑,多机拓扑是怎么获取的呢?

7、pytorch如何调用DDP?

8、DDP如何调用NCCP?

9、NCCL如何调用RDMA?

10、怎么理解RING和TREE?

相关推荐
逸模1 天前
告别熬夜手工整理台账,逸模智能归集实现项目数据自动化存档
大数据·运维·人工智能·笔记·其他·信息可视化·自动化
weixin_397574091 天前
生产管理和设备管理:制造执行层的AI痛点
人工智能·制造
冬奇Lab1 天前
Agent 系列(16):工具链设计——让 LLM 用对工具的五个原则
人工智能·llm·agent
冬奇Lab1 天前
每日一个开源项目(第125篇):taste-skill - 给 AI 装上审美,让前端不再千篇一律
人工智能·开源·agent
Ajie'Blog1 天前
Copilot Agent Tasks API 开放:AI 编程开始进入后台任务时代
服务器·前端·javascript·人工智能·copilot·ai编程
SEONIB_Explorer1 天前
AI SEO 与传统SEO成本对比:哪种更划算?
人工智能
一次旅行1 天前
AI领域每日资讯报告
人工智能
Python私教1 天前
Cursor + Claude Code 全流程实战:搭一套生产级 AI 编程工作流(2026 最新版)
人工智能·语言模型·qwen·ollama·本地大模型·大模型部署·deepseek
来让爷抱一个1 天前
MonkeyCode 的 Git 协作功能:团队开发新范式
人工智能·ai编程