极智AI | 从大模型角度看苹果M3系列芯片

欢迎关注我的公众号 [极智视界],获取我的更多经验分享

大家好,我是极智视界,本文来介绍一下 从大模型角度看苹果M3系列芯片。

邀您加入我的知识星球「极智视界」,星球内有超多好玩的项目实战源码下载,链接:t.zsxq.com/0aiNxERDq

北京时间今天早上,Apple 发布了 Apple Event - October 30,一个极简的发布会,推出了性能强悍的 M3 系列芯片。在这个只有三十分钟的视频里,尽显苹果的最高科技和炫酷的性能效果,完整的 Apple Event 可以在苹果的官网上看到,有兴趣的同学可以去看看。

先简单介绍一下苹果 M3 系列芯片,要说 M3 芯片,首先还是要提一下 M1 芯片。在 2020 年 11 月 11 日,也就是咱们那年的双十一,Apple M1 正式发布。M1 芯片是 Apple 首款专为 Mac 打造的芯片,拥有格外出色的性能、众多强大的功能以及令人惊叹的能效表现。M1 芯片是 Apple 首款采用先进的 5nm 制程打造的个人笔记本电脑芯片,封装了数量惊人的 160 亿个晶体管,当时真的引起不小的轰动。也就是从那个时候起,MacBook 有了 Intel 芯片 x86 版本的 和 M芯片版本的。

这次推出的 M3 系列芯片,很明显就是 M 系列芯片的第三代,上一代是 M2 系列,可以看到这一代代发展地贼快。在这次的发布会中有说,搭载 M3 芯片的 Mac 相比 Intel 版的 Mac,性能提升会是颠覆性的,差不多会有 11x 的性能提升。所以,后面应该会是 M 系列的 Mac 为主了。(顺便提一句,这次还推出了深空黑色版的 Mac,实属有点帅了,如下)

接着咱们来说说从大模型部署的角度看苹果这次发布的 M3 系列芯片。

需要明确的是,每个系列的 M 芯片都会有三种型号,比如这次的 M3、M3 Pro、M3 Max。当然,你可能还听说过 M2 Ultra,这中 Ultra 系列的芯片其实就是将两块 M2 拼接在一起了 (这跟英伟达 H100 NVL 版本 (双 GPU 版)),主要是用于苹果的 Mac Studio 产品中。众所周知,苹果是不单卖芯片的,都是会以产品的形式集成出售。比如这里的 M3 就会集成在 24 英寸的 iMac 中,而 M3 Pro 和 M3 Max 会被集成在 14/16 英寸的 Macbook Pro 中。

对于大模型的部署,算力设备的下面几个指标至关重要,

  • 显存;
  • 带宽;
  • 算力;
  • 功耗;
  • 框架;
  • 价格;

咱们分别来看,首先是显存。对于大模型的部署来说,显存大真的太重要了,不然直接就是塞不下。苹果 M 系列芯片都采用了统一内存架构,当然 M3 也不会例外,M3 芯片支持的内存容量最高达 128 GB。这有多夸张呢,举个例子,拿今年 (2023 年 6 月 6 日) 发布的 M2 UItra 来说,它的最大内存甚至可以飙到足足 192 GB (这里因为双芯片拼接,AMD 也有这技术),在苹果芯片的统一内存架构下,这 192 GB 内存就是 192 GB 显存,这意味着八张 4090、两张 H100 才能装得下的 AI 大模型,在 M2 Ultra 这一张芯片上就能够跑起来。那要是后面的 M3 Ultra 呢 (按现在 M3 最大 128 GB 来估算,M3 Ultra 甚至能够轻松突破 200+ GB),想想是非常可怕。而这一切都是得益于苹果芯片的 "统一内存架构",简单点说就是内存能当显存用。拿 LLaMA-65B 来说,它有 650 亿参数,显存需求是 130 GB,这还真就能直接装得下。在大模型越来越流行的今天,苹果的这套架构就非常具有想象空间了。

再说带宽,在苹果的统一内存架构中,CPU、GPU 和统一内存是直接通过硅介质层连在一起的,所以数据传输带宽非常之高,拿 M2 Ultra 来说,数据读写带宽达到了 800 GB/s。这就已经能够跟正儿八经的独立显卡的显存速度掰掰手腕了,拿 4090 来说,它的显存带宽速度是 1008 GB/s,这是在一个数量级上的。但也需要明确的是,比如 A100 的显存带宽就达到了 1935 GB/s、H100 的显存带宽甚至达到了 2TB/s,这种专业计算卡的带宽都是要比 M2 Ultra 快不少的。但要是拿 NvLink 的带宽 600 GB/s 来说,M2 Ultra 还是胜出的。对于很多 AI 同学还是拿 PCIE 进行数据传输的来说,真的是神仙打架...

再说算力,算力这一块在苹果芯片上是比较迷的指标,而英伟达的显卡通常都会标的十分清晰明了,比如 H100 的 FP32 算力是 51 TFLOPS、Int8 算力是 1513 TOPS,比如 A100 的 FP32 算力是 19.5 TFLOPS、Int8 算力是 624 TOPS。这可能跟苹果和英伟达的产品矩阵不同有关,英伟达的主要产品就是显卡,而算力是显卡的必要参数;而苹果的产品不在于算力卡,所以强调的性能大多是结合产品表现的,比如在 Mac 上就是跑分。

再说功耗,这个指标是苹果 M 芯片比较有优势的地方,由于本身的定位就是个人笔记本电脑产品,所以功耗设计不可能很高。最重要的,M3 芯片采用了目前最为先进的 3nm 工艺生产的,这意味着在同样的芯片面积上能够堆叠更加多的晶体管,能效比的提升会十分明显。

再说框架/软件生态的支持,现在应该可以直接说最流行的深度学习框架就是 PyTorch 了吧,咱们进 PyTorch 的官网,其实 PyTorch 很早就有对 Mac M 芯片的支持。所以对于采用 PyTorch 进行训练、微调大模型的场景,迁移成本会很小。

最后说价格,先不说英伟达的高端显卡买不买得到的问题,就单纯说说价格。一张 H100 在日本的出售价格高达 4745950 日元,折合人民币 24.2 万元;一张 A100 40G 版本的价格为 75599 元、80G 版本的为 91999 元。反观苹果,一台全新的 M3 Max 128 GB 的 16 寸 Mac Pro 售价 39499 元;一台 192 GB M2 Ultra 的 Mac Studio 售价 44999 元。 "苹果"、"性价比"?这两个词在这里像是事实但好像又不太搭 ...

说到底还是由于苹果的统一内存架构,这真的是 AI 圈全村的希望。

虽然都是有钱人的游戏,但还是香,太香了。

好了,以上分享了 从大模型角度看苹果M3系列芯片,希望我的分享能对你的学习有一点帮助。


【公众号传送】

《极智AI | 从大模型角度看苹果M3系列芯片》

畅享人工智能的科技魅力,让好玩的AI项目不难玩。邀请您加入我的知识星球, 星球内我精心整备了大量好玩的AI项目,皆以工程源码形式开放使用,涵盖人脸、检测、分割、多模态、AIGC、自动驾驶、工业等。不敢说会对你学习有所帮助,但一定非常好玩,并持续更新更加有趣的项目。 t.zsxq.com/0aiNxERDq

相关推荐
m0_6090004237 分钟前
向日葵好用吗?4款稳定的远程控制软件推荐。
运维·服务器·网络·人工智能·远程工作
开MINI的工科男1 小时前
深蓝学院-- 量产自动驾驶中的规划控制算法 小鹏
人工智能·机器学习·自动驾驶
AI大模型知识分享3 小时前
Prompt最佳实践|如何用参考文本让ChatGPT答案更精准?
人工智能·深度学习·机器学习·chatgpt·prompt·gpt-3
张人玉4 小时前
人工智能——猴子摘香蕉问题
人工智能
草莓屁屁我不吃5 小时前
Siri因ChatGPT-4o升级:我们的个人信息还安全吗?
人工智能·安全·chatgpt·chatgpt-4o
小言从不摸鱼5 小时前
【AI大模型】ChatGPT模型原理介绍(下)
人工智能·python·深度学习·机器学习·自然语言处理·chatgpt
AI科研视界5 小时前
ChatGPT+2:修订初始AI安全性和超级智能假设
人工智能·chatgpt
霍格沃兹测试开发学社测试人社区5 小时前
人工智能 | 基于ChatGPT开发人工智能服务平台
软件测试·人工智能·测试开发·chatgpt
小R资源5 小时前
3款免费的GPT类工具
人工智能·gpt·chatgpt·ai作画·ai模型·国内免费
artificiali8 小时前
Anaconda配置pytorch的基本操作
人工智能·pytorch·python