动手学深度学习33 单机多卡并行

单机多卡并行

更多的芯片
https://courses.d2l.ai/zh-v2/assets/pdfs/part-2_2.pdf

多GPU训练
https://courses.d2l.ai/zh-v2/assets/pdfs/part-2_3.pdf

当transformer模型很大,有100GB的时候只能用模型并行。

数据并行,拿的参数是完整的?

QA

1 当有一块卡显存更大的时候,可以把数据批量设大一些,单独给大显存的卡数据多一些。

2 梯度累加起来。

3 存储模型,梯度。中间数据量的大小取决于数据批量大小。批量变小,矩阵运算变小,性能会低。

4 模型并行可以做到一定程度的并行,并行程度会低

5 独立显卡会比集成显卡快很多。

6 无人车关心功耗,希望拿到server端的效果但是功耗要低。

相关推荐
冬奇Lab3 小时前
Workflow 系列(04):Multi-Agent 协调——编排器边界、并发控制与上下文隔离
人工智能·工作流引擎
冬奇Lab3 小时前
每日一个开源项目(第147篇):HyperGraphRAG - 用超图表示 N 元关系,RAG 的第三代范式
人工智能·开源·graphql
甲维斯3 小时前
Github + 阿里云oss实现类似codex的自动更新!
人工智能
阿里云大数据AI技术5 小时前
光轮智能 × 阿里云:共建 Physical AI 云上数据、评测与持续学习基础设施
人工智能·机器学习
机器之心5 小时前
实锤了:Claude Code偷查用户,时区、中国AI实验室全是关键词
人工智能·openai
网易云信5 小时前
Cursor点燃个人开发者,企业级AI为何频频受挫?Agent工厂从提效工具到AI员工的跃迁
人工智能·开源
网易云信5 小时前
解锁触手可及的温暖:网易智企 x Wander Puffs AI 云游泡芙
人工智能
转转技术团队5 小时前
从 PRD 到可验证代码:AI 需求开发闭环实践
人工智能