动手学深度学习33 单机多卡并行

单机多卡并行

更多的芯片
https://courses.d2l.ai/zh-v2/assets/pdfs/part-2_2.pdf

多GPU训练
https://courses.d2l.ai/zh-v2/assets/pdfs/part-2_3.pdf

当transformer模型很大,有100GB的时候只能用模型并行。

数据并行,拿的参数是完整的?

QA

1 当有一块卡显存更大的时候,可以把数据批量设大一些,单独给大显存的卡数据多一些。

2 梯度累加起来。

3 存储模型,梯度。中间数据量的大小取决于数据批量大小。批量变小,矩阵运算变小,性能会低。

4 模型并行可以做到一定程度的并行,并行程度会低

5 独立显卡会比集成显卡快很多。

6 无人车关心功耗,希望拿到server端的效果但是功耗要低。

相关推荐
IOT.FIVE.NO.13 分钟前
2026-05-30-Codex更新后对话消失和沙盒失效:适用人群、问题背景、解决方式与原因分析
人工智能·windows
yubo05094 分钟前
计算机视觉第八课:形状识别(自动认出 圆形、方形、三角形)
人工智能·opencv·计算机视觉
阿部多瑞 ABU7 分钟前
AI红队攻防演化史(2023-2026):从虚拟角色到RLHF劫持——所有攻击方法全景总结与最新趋势分析
网络·人工智能·安全
AsiaSun.14 分钟前
我把 Codex 协作经验,整理成了一套公共 Skills
人工智能
Swift社区21 分钟前
具身智能:让AI真正“理解”物理世界
人工智能
落叶无情23 分钟前
ICEF 框架+框架动态补全机制:从零构建虚构地缘冲突分析模型
人工智能
爱分享的康康25 分钟前
低成本自动驾驶数据采集设备理性分析:康谋入门套装适配性解析
大数据·人工智能
深小乐25 分钟前
个人知识库,折腾一圈后我还是选了 Obsidian
人工智能
_Aaron___32 分钟前
Spring AI 接入 MCP:工具调用不是“能调就行”,关键是边界治理
java·人工智能·spring
YueJoy.AI33 分钟前
创业团队如何进行绩效管理
人工智能·ai·语言模型