常见的GPU性能对比

写这篇博客的目的就是想搞清楚英伟达不同显卡之间的性能差异以及移动端GPU的性能达到了英伟达显卡的哪一代，让自己也让大家明白不同显卡的算力差异。所有的数据均从网络搜索，有不正确的地方欢迎批评指正。同一显卡会有一个首次发布，此外还有一系列的迭代升级版本，我们只考虑首次发布版本的性能。鉴于现在的模型推理大多使用int8来进行推理，所以大家可以着重看一下int8算力那一列。

1. 英伟达GPU

|-----------|----------|---------|--------|--------|--------|-------|--------------|------|------|---------|
| 型号 | 显存带宽 | 显存位宽 | fp32算力 | fp16算力 | int8算力 | TDP功耗 | 架构 | 制程 | 计算能力 | 首次发布 |
| GTX1080 | 320GB/s | 256bit | 8.9T | 138G | 35.5T | 180W | Pascal | 14nm | 6.1 | 2016.05 |
| GTX1080Ti | 484GB/s | 352bit | 11.3T | 177G | 45.2T | 250W | Pascal | 14nm | 6.1 | 2017.03 |
| P4 | 192GB/s | 256bit | 5T | X | 20T | 75W | Pascal | 14nm | 6.1 | 2016.09 |
| V100 PCIe | 900GB/s | 4096bit | 14T | 112T | 224T | 250W | Volta | 12nm | 7.0 | 2018.03 |
| RTX2080 | 448GB/s | 256bit | 10T | 20T | 80T | 215W | Turing | 12nm | 7.5 | 2018.09 |
| RTX2080Ti | 616GB/s | 352bit | 13.4T | 26.9T | 108T | 250W | Turing | 12nm | 7.5 | 2018.09 |
| T4 | 320GB/s | 256bit | 8.1T | 64.8T | 130T | 70W | Turing | 12nm | 7.5 | 2018.09 |
| A100 PCIe | 1935GB/s | 5120bit | 156T | 312T | 624T | 300W | Ampere | 7nm | 8.0 | 2020.05 |
| A100 SXM | 2039GB/s | 5120bit | 312T | 624T | 1248T | 400W | Ampere | 7nm | 8.0 | 2020.05 |
| RTX3070 | 448GB/s | 256bit | 20T | 40T | 163T | 220W | Ampere | 7nm | 8.6 | 2020.10 |
| RTX3080 | 760GB/s | 320bit | 30T | 60T | 238T | 350W | Ampere | 7nm | 8.6 | 2020.09 |
| RTX3090 | 936GB/s | 384bit | 35.6T | 71.2T | 285T | 350W | Ampere | 7nm | 8.6 | 2020.09 |
| RTX3090Ti | 1008GB/s | 384bit | 40T | 80T | 321T | 450W | Ampere | 7nm | 8.6 | 2022.03 |
| RTX4060 | 272GB/s | 128bit | 15.1T | 30.2T | 242T | 115W | Ada Lovelace | 5nm | 8.9 | 2023.06 |
| RTX4070 | 504GB/s | 192bit | 29.1T | 58.2T | 466T | 200W | Ada Lovelace | 5nm | 8.9 | 2023.04 |
| RTX4080 | 504GB/s | 192bit | 40.1T | 80.2T | 780T | 320W | Ada Lovelace | 5nm | 8.9 | 2022.11 |
| RTX4090 | 1008GB/s | 384bit | 82.6T | 165.2T | 1321T | 450W | Ada Lovelace | 5nm | 8.9 | 2022.10 |
| H100 SXM | 3.35TB/s | 5120bit | 989T | 1929T | 3958T | 700W | Hopper | 4nm | 9.0 | 2022.03 |

参考：

2. 移动端CPU

移动端CPU的芯片包含GPU和NPU，但是从算力上来讲，NPU的算力要远大于GPU，所以我们更关注NPU的算力。苹果M系列芯片虽然也是用在桌面端的，但是属于CPU内部集成了GPU和NPU，我们也把它放在移动端CPU里。

2.1 高通骁龙系列：

|--------|----------|------------|-------|-------------|------------|-------|------|--------|
| | 内存带宽 | GPU型号 | GPU算力 | NPU型号 | NPU int8算力 | TDP功耗 | 制程 | 发布时间 |
| 845 | 29.8GB/s | Adreno 630 | 0.7T | Hexagon 685 | 3T | 9W | 10nm | 2018Q1 |
| 855 | 34.1GB/s | Adreno 640 | 0.9T | Hexagon 690 | 7T | 6W | 7nm | 2019Q1 |
| 865 | 34.1GB/s | Adreno 650 | 0.9T | Hexagon 698 | 15T | 5W | 7nm | 2020Q1 |
| 870 | 34.1GB/s | Adreno 650 | 1T | Hexagon 698 | 15T | 6W | 7nm | 2021Q1 |
| 888 | 51.2GB/s | Adreno 660 | 1.3T | Hexagon 780 | 26T | 8W | 5nm | 2021Q1 |
| 888+ | 51.2GB/s | Adreno 660 | 1.3T | Hexagon 780 | 32T | 8W | 5nm | 2021Q3 |
| 8gen1 | 51.2GB/s | Adreno 730 | 1.7T | Hexagon 790 | 52T | 5.3W | 4nm | 2021Q4 |
| 8+gen1 | 51.2GB/s | Adreno 730 | 1.8T | Hexagon 790 | 52T | 6W | 4nm | 2022Q2 |
| 8gen2 | 67.2GB/s | Adreno 740 | 2.1T | Hexagon | ? | 6.3W | 4nm | 2022Q4 |
| 8gen3 | 76.8GB/s | Adreno 750 | 2.8T | Hexagon | 73T? | 6.3W | 4nm | 2023Q4 |

参考：

2.2 联发科天玑系列：

|-------|----------------|-------|---------|------------|-----|--------|
| | GPU型号 | GPU算力 | NPU型号 | NPU int8算力 | 制程 | 发布时间 |
| 8100 | Mali G610 | 0.9T | APU 580 | | 5nm | 2022Q1 |
| 8200 | Mali G610 | | APU 580 | | 4nm | 2022Q4 |
| 8300 | Mali G615 | | APU 780 | | 4nm | 2023Q4 |
| 9000 | Mali G710 | 1.6T | APU 590 | | 4nm | 2021Q4 |
| 9200 | Immortali G715 | | APU 690 | | 4nm | 2022Q4 |
| 9200+ | Immortali G715 | | APU 690 | | 4nm | 2023Q2 |
| 9300 | Immortali G720 | | APU 790 | | 4nm | 2023Q4 |
| 9300+ | Immortali G720 | | APU 790 | | 4nm | 2024Q2 |

搜不到相关信息，欢迎提供资料。

参考：

1.List of MediaTek systems on chips

2.3 苹果A系列：

|-------------|----------|-------|--------|-------|------|--------|
| | 内存带宽 | GPU算力 | int8算力 | TDP功耗 | 制程 | 发布时间 |
| A11 Bionic | 34.1GB/s | 0.4T | 0.6T | 8W | 10nm | 2017Q3 |
| A12 Bionic | 34.1GB/s | 0.6T | 5T | 6W | 7nm | 2018Q3 |
| A12X Bionic | 68.2GB/s | 1T | 5T | | 7nm | 2018Q4 |
| A12Z Bionic | 68.2GB/s | 1.1T | 5T | | 7nm | 2020Q1 |
| A13 Bionic | 34.1GB/s | 0.7T | 5.5T | 6W | 7nm | 2019Q3 |
| A14 Bionic | 34.1GB/s | 0.7T | 11T | 6W | 5nm | 2020Q4 |
| A15 Bionic | 34.1GB/s | 1.7T | 15.8T | 6W | 5nm | 2021Q3 |
| A16 Bionic | 51.2GB/s | 1.8T | 17T | 8W | 4nm | 2022Q3 |
| A17Pro | 51.2GB/s | 2.1T | 35T | 8W | 3nm | 2023Q3 |

参考：

2.4 苹果M系列：

|----------|---------|---------|--------|--------|-----|--------|
| | 内存带宽 | 内存位宽 | FP32算力 | int8算力 | 制程 | 发布时间 |
| M1 | 68GB/s | 128bit | 2.6T | 11T | 5nm | 2020Q4 |
| M1 Pro | 205GB/s | 256bit | 5.3T | 11T | 5nm | 2021Q4 |
| M1 Max | 410GB/s | 512bit | 10.6T | 11T | 5nm | 2021Q4 |
| M1 Ultra | 819GB/s | 1024bit | 21.2T | 22T | 5nm | 2022Q1 |
| M2 | 102GB/s | 128bit | 3.6T | 16T | 5nm | 2022Q2 |
| M2 Pro | 205GB/s | 256bit | 6.8T | 16T | 5nm | 2023Q1 |
| M2 Max | 410GB/s | 512bit | 13.6T | 16T | 5nm | 2023Q1 |
| M2 Ultra | 819GB/s | 1024bit | 27T | 32T | 5nm | 2023Q2 |
| M3 | 102GB/s | 128bit | 3.5T | 18T | 3nm | 2023Q4 |
| M3 Pro | 153GB/s | 192bit | 6.4T | 18T | 3nm | 2023Q4 |
| M3 Max | 410GB/s | 512bit | 14T | 18T | 3nm | 2023Q4 |
| M4 | 120GB/s | 128bit | 3.7T | 38T | 3nm | 2024Q2 |

参考：

Apple silicon

3. 一些结论

目前最强的GPU芯片当属NVIDIA H100，当然很快就会被B100所替代，其他家的芯片难以望其项背，而且差距没有缩小的迹象；
骁龙8gen3芯片的NPU算力搜不到，大概预估在100T左右，也就刚到18年GTX2080Ti的水准，说明目前的移动端GPU比桌面端GPU要落后6年以上，而且受限于移动端的功耗和尺寸限制，这个差距应该永远无法缩小了。不过也不用太过灰心，18年的时候深度学习已经非常火热，也出现了很多成熟的AI落地，再加上这几年AI的持续进步，所以当下的AI模型在端侧的水准是肯定高于18年的；
目前英伟达的主流芯片：4090，A100，H100我们该如何选择？有钱有途径那肯定是H100。我们从需求侧来分析，假设你的需求是计算密集型的，4090足够了，它的int8性能比A100高性能版都要强；但是如果你的需求是通信密集型的，还是A100和H100更合适，因为它们的显存带宽会更大；
苹果手机卖得贵一个原因就是大家认为它的芯片好，但是从NPU的性能上来看，它不值现在的价格，有点被高估。从我们实际做实验的结论来看，苹果的NPU算力确实没有高通骁龙强，不过还是要强于联发科天玑芯片。

4. 一些猜测

英伟达GPU的性能上限可以到多少？B100还没有上市，但是芯片制程应该是3nm，高性能版的int8算力应该可以达到8P左右。假设芯片制程最低可以到1nm，我们推测GPU芯片的性能还可以继续提升，即使到达瓶颈还可以通过堆叠的方式进一步扩大芯片规模。此外，后续的主流推理可能开始使用int4或者fp4格式，这样就可以使得算力再加倍。我个人推测在未来10年，英伟达的芯片算力会持续提升，int8算力的上限有望达到100p，也即一张卡可以抵100张A100，当然那时的功耗也会比较夸张；
移动端GPU的性能上限能到多少呢？相比桌面端GPU，我个人持谨慎悲观的态度。单颗芯片的NPU算力上限可能也就到500T以内，达到4070的水平。但是移动端是否也可以通过多卡的方式实现算力的暴增呢，这也说不定；
很多人说今年是AI PC的元年，我理解真正实现AI PC的推广，算力至少要达到4090这个水准，也即单卡的算力要到1P以上。那么AI手机什么时候真正出现呢，我觉得可能用不了6年那么久（移动端GPU追上当下桌面端GPU性能的时间），随着AI的快速迭代，可能也就3、4年即2027年就会出现真正意义上的AI手机；
现在我们主要关注的性能指标就是int8推理和显存带宽，再过一年说不定关注的重点就变成int4推理性能和显存带宽了。