动手学深度学习33 单机多卡并行

单机多卡并行

更多的芯片
https://courses.d2l.ai/zh-v2/assets/pdfs/part-2_2.pdf

多GPU训练
https://courses.d2l.ai/zh-v2/assets/pdfs/part-2_3.pdf

当transformer模型很大,有100GB的时候只能用模型并行。

数据并行,拿的参数是完整的?

QA

1 当有一块卡显存更大的时候,可以把数据批量设大一些,单独给大显存的卡数据多一些。

2 梯度累加起来。

3 存储模型,梯度。中间数据量的大小取决于数据批量大小。批量变小,矩阵运算变小,性能会低。

4 模型并行可以做到一定程度的并行,并行程度会低

5 独立显卡会比集成显卡快很多。

6 无人车关心功耗,希望拿到server端的效果但是功耗要低。

相关推荐
CSTechEi8 分钟前
【SPIE/EI/Scopus检索】2026 年第三届数据挖掘与自然语言处理国际会议 (DMNLP 2026)
人工智能·自然语言处理·数据挖掘
GJGCY9 分钟前
技术剖析:智能体工作流与RPA流程自动化的架构差异与融合实现
人工智能·经验分享·ai·自动化·rpa
UMI赋能企业13 分钟前
制造业流程自动化提升生产力的全面分析
大数据·人工智能
说私域40 分钟前
“开源AI大模型AI智能名片S2B2C商城小程序”视角下的教育用户策略研究
人工智能·小程序
墨利昂1 小时前
Transformer架构:深度学习序列建模的革命性突破
深度学习·架构·transformer
gddkxc1 小时前
AI CRM中的数据分析:悟空AI CRM如何帮助企业优化运营
人工智能·信息可视化·数据分析
我是李武涯1 小时前
PyTorch Dataloader工作原理 之 default collate_fn操作
pytorch·python·深度学习
AI视觉网奇1 小时前
Python 检测运动模糊 源代码
人工智能·opencv·计算机视觉
东隆科技1 小时前
PRIMES推出SFM 2D全扫描场分析仪革新航空航天LPBF激光增材制造
人工智能·制造
无风听海2 小时前
神经网络之计算图repeat节点
人工智能·深度学习·神经网络