AI芯片分类汇总:主流芯片详解(附论文/报告/项目链接)
引言
人工智能(AI)技术的迅猛发展离不开底层硬件的支持,尤其是AI芯片。这些芯片是支撑深度学习模型训练和推理的核心组件。根据Stanford AI Index 2025报告,AI芯片市场规模预计在2023-2033年间以24.4%的复合年增长率(CAGR)扩张,到2033年将超过1000亿美元。中国厂商如华为、寒武纪在云端市场占比已达30%以上,全球竞争激烈。
本文基于多个权威来源(如GitHub仓库basicmi/AI-Chip、BRTResearch/AIChip_Paper_List、icochecker/AI-Chip-List,以及Stanford AI Index 2025、AIMultiple的Top AI Chip Makers报告)汇总代表性AI芯片。分类标准包括:
- GPU类:擅长并行计算,主要用于大模型训练。
- ASIC类:专用集成电路,能效高,适用于特定任务如推理。
- FPGA类:可重编程,适合原型开发和灵活应用。
- NPU/其他专用类:神经处理单元,专注边缘/移动端神经网络。
- 类脑/新兴类:模拟人脑,低功耗脑启发计算。
每个芯片条目包含名称、厂商、简要描述(性能/应用焦点)和附录链接(论文、报告或项目)。
1. GPU类(50个):并行矩阵运算,训练大模型主力
GPU是AI训练的核心,NVIDIA主导市场份额约40%。这些芯片强调高浮点运算能力(TFLOPS)和内存带宽(如HBM3)。
| 序号 | 芯片名称 | 厂商 | 描述 | 附录链接 |
|---|---|---|---|---|
| 1 | Hopper H100 | NVIDIA | Hopper架构,9.89×10¹⁴ FP16 FLOP/s,云端训练 | NVIDIA Hopper白皮书 |
| 2 | Grace | NVIDIA | Arm CPU+GPU融合,高性能AI服务器 | AnandTech报告 |
| 3 | Instinct MI Series | AMD | HPC/AI加速器,24.6 TFLOPS FP16 | AMD Instinct报告 |
| 4 | Radeon Instinct MI25 | AMD | 12.3 TFLOPS SP,数据中心AI | AMD MI25规格 |
| 5 | Blackwell Ultra | NVIDIA | 数据中心训练,B100后继 | AIMultiple分析 |
| 6 | MI400 | AMD | MI300后继,数据中心加速 | AIMultiple分析 |
| 7 | P100 | NVIDIA | 早期Pascal GPU,74 BFLOPS/W | Stanford AI Index 2025 |
| 8 | V100 | NVIDIA | Volta架构,1.87×10¹³ FP16 FLOP/s | Stanford AI Index 2025 |
| 9 | A100 | NVIDIA | Ampere,3.12×10¹⁴ FP16 FLOP/s | Stanford AI Index 2025 |
| 10 | H100 | NVIDIA | Hopper,15%模型训练使用 | Stanford AI Index 2025 |
| 11 | B100 | NVIDIA | Blackwell,2.5 TFLOPS/W | Stanford AI Index 2025 |
| 12 | B200 | NVIDIA | Blackwell系列,能效领先 | Stanford AI Index 2025 |
| 13 | Tesla T4 | NVIDIA | Tensor Core,推理优化 | NVIDIA Tesla规格 |
| 14 | Turing | NVIDIA | 消费/专业GPU,RT核心 | NVIDIA Turing公告 |
| 15 | DRIVE PX | NVIDIA | 自动驾驶SoC,边缘GPU | NVIDIA DRIVE项目 |
| 16 | Jetson TX1 | NVIDIA | 嵌入式AI,256核心Pascal | NVIDIA Jetson文档 |
| 17 | Jetson TX2 | NVIDIA | TX1升级,8GB LPDDR4 | NVIDIA Jetson文档 |
| 18 | Jetson Orin | NVIDIA | 边缘AI,275 TOPS | AIMultiple分析 |
| 19 | JM9系列 | 景嘉微 | 国产办公/安防GPU | GitHub AI-Chip |
| 20 | MT-7100 | 摩尔线程 | MTT S4000,4K AI渲染 | GitHub AI-Chip |
| 21 | Trainium | AWS | ML训练GPU,Inferentia补充 | AWS Trainium博客 |
| 22 | Grace Hopper Superchip | NVIDIA | CPU+GPU,HPC融合 | NVIDIA GTC报告 |
| 23 | RTX 4090 | NVIDIA | 消费级,24GB GDDR6X | NVIDIA开发者页 |
| 24 | V100 | NVIDIA | Volta,Tensor Core | MLPerf基准 |
| 25 | MI300X | AMD | CDNA 3,192GB HBM3 | AMD数据表 |
| 26 | Radeon Instinct MI250 | AMD | 多芯片,AI/HPC | AMD白皮书 |
| 27 | Ascend 910D | Huawei | 国产云端GPU | 华为昇腾报告 |
| 28 | DGX-2 | NVIDIA | 2 PFLOPS半精度系统 | NextPlatform报告 |
| 29 | Tesla P100 | NVIDIA | Pascal,早期AI基准 | GitHub AI-Chip-List |
| 30 | GeForce RTX 5090 | NVIDIA | 下一代消费GPU | GitHub AI-Chip |
| 31 | MI250X | AMD | 前沿HPC GPU | AMD报告 |
| 32 | A40 | NVIDIA | Ampere专业GPU | NVIDIA规格 |
| 33 | L40S | NVIDIA | 数据中心推理GPU | NVIDIA公告 |
| 34 | H200 | NVIDIA | Hopper升级,141GB HBM3 | NVIDIA新闻 |
| 35 | MI325X | AMD | CDNA 3升级 | AMD路线图 |
| 36 | RDNA 3 | AMD | 消费/专业AI GPU | AMD RDNA报告 |
| 37 | RTX A6000 | NVIDIA | Ampere工作站GPU | NVIDIA专业页 |
| 38 | Instinct MI210 | AMD | 前代加速器 | AMD MI210规格 |
| 39 | Quadro RTX 8000 | NVIDIA | Turing专业 | NVIDIA Quadro |
| 40 | Radeon Pro W6800 | AMD | 专业工作站GPU | AMD Radeon Pro |
| 41 | Tesla K80 | NVIDIA | Kepler双GPU | NVIDIA历史规格 |
| 42 | MI100 | AMD | CDNA 1,120 TFLOPS | AMD MI100数据表 |
| 43 | RTX 3090 | NVIDIA | Ampere消费 | NVIDIA RTX 30 |
| 44 | Instinct MI50 | AMD | 前代Vega GPU | AMD MI50 |
| 45 | A6000 | NVIDIA | Ada专业GPU | NVIDIA A6000 |
| 46 | MI300A | AMD | APUs for HPC/AI | AMD MI300A |
| 47 | L4 | NVIDIA | 低功耗推理GPU | NVIDIA L4 |
| 48 | MI200 | AMD | CDNA 2系列 | AMD MI200 |
| 49 | RTX 4080 | NVIDIA | Ada消费GPU | NVIDIA RTX 40 |
| 50 | Instinct MI300 | AMD | 前沿数据中心 | AMD MI300 |
这些GPU在训练大型语言模型(如GPT系列)中发挥关键作用,能效比逐年提升(B100较P100提升33.8倍)。
2. ASIC类(70个):定制优化,能效高,推理/特定任务
ASIC针对特定算法优化,功耗低,常用于云端推理和边缘部署。Google TPU系列是典型代表。
| 序号 | 芯片名称 | 厂商 | 描述 | 附录链接 |
|---|---|---|---|---|
| 51 | EyeQ5 | Mobileye | 自动驾驶视觉SoC,7nm | Mobileye EyeQ |
| 52 | Gaudi2 | Intel Habana | 第二代训练/推理,HBM2 | Habana Gaudi报告 |
| 53 | Greco | Intel Habana | DL训练/推理处理器 | Habana Labs公告 |
| 54 | Cloud AI 100 | Qualcomm | 云/边缘推理加速 | Qualcomm Cloud AI |
| 55 | Exynos 9 Series 9820 | Samsung | 移动AI处理 | Samsung Exynos新闻 |
| 56 | AIU | IBM | DL专用单元 | IBM AIU博客 |
| 57 | Telum | IBM | 7nm AI微处理器 | IBM Telum博客 |
| 58 | OCTEON | Marvell | AI基础设施DPU | Marvell DPU |
| 59 | Tensor | Pixel手机ASIC | HPCwire TPU v4 | |
| 60 | TPU v4 | 脉动阵列,训练/推理 | Google Cloud TPU | |
| 61 | Cloud TPU | 大规模ML ASIC | Google Cloud TPU | |
| 62 | Edge TPU | 边缘低延迟AI,4 TOPS | Google Edge TPU | |
| 63 | Trainium | AWS | DL训练自定义芯片 | AWS Trainium |
| 64 | Inferentia | AWS | 高性能ML推理 | AWS Inferentia |
| 65 | Hanguang 800 | Alibaba | 云推理专用,80k图像/s | SyncedReview文章 |
| 66 | Zixiao | Tencent | 数据中心AI芯片 | DCD新闻 |
| 67 | Kunlun 2 | Baidu | 第二代云/边缘,260 TOPS | Reuters新闻 |
| 68 | DLU | Fujitsu | 自定义指令集DL单元 | GitHub AI-Chip |
| 69 | ReefShark | Nokia | 5G AI网络优化 | GitHub AI-Chip |
| 70 | Dojo D1 | Tesla | AI训练,GPU级计算 | SemiAnalysis报告 |
| 71 | Andromeda | Cerebras | 1350万核心AI超级计算机 | Cerebras博客 |
| 72 | CS-2 | Cerebras | 晶圆级,大模型训练 | Cerebras记录 |
| 73 | WSE2 | Cerebras | 2.6万亿晶体管晶圆引擎 | AnandTech WSE2 |
| 74 | CS-1 | Cerebras | DL端用户计算 | TechCrunch CS-1 |
| 75 | IPU (MK2) | Graphcore | 晶圆级IPU,MK2 | Graphcore MK2基准 |
| 76 | M1076 | Mythic | 低功耗模拟矩阵处理器 | VentureBeat Mythic |
| 77 | Ergo | Perceive | 边缘推理处理器 | VentureBeat Perceive |
| 78 | Xcore.ai | XMOS | AIoT交叉处理器 | VentureBeat XMOS |
| 79 | NR1-P | NeuReality | AI中心推理平台 | ElectronicsMedia NR1 |
| 80 | AML100 | Aspinity | 常开模拟ML芯片 | Aspinity网站 |
| 81 | SN40L | SambaNova | LLM全栈平台 | SambaNova文章 |
| 82 | Gluon | AlphaICs | 边缘DL协处理器 | EE Times AlphaICs |
| 83 | Prodigy | Tachyum | CPU/GPU/TPU统一 | HPCwire Prodigy |
| 84 | MLSoC | SiMa.ai | 高性能推理SoC | BusinessWire SiMa |
| 85 | Gaudi3 | Intel | Habana Labs,HBM2e | Intel Habana报告 |
| 86 | Trainium3 | AWS | 模型训练集群 | AIMultiple分析 |
| 87 | Ironwood | LLM/MoE,4,614 TFLOPS | AIMultiple分析 | |
| 88 | Trillium | 第六代TPU | AIMultiple分析 | |
| 89 | ACCEL | Alibaba | SMIC合作推理 | AIMultiple分析 |
| 90 | NorthPole | IBM | 计算+内存原型 | AIMultiple分析 |
| 91 | Ascend 920 | Huawei | 昇腾910家族 | AIMultiple分析 |
| 92 | Ascend 910C | Huawei | 推理,~60% H100性能 | AIMultiple分析 |
| 93 | LPU Inference Engine | Groq | LLM推理引擎 | AIMultiple分析 |
| 94 | Ascend 910 | Huawei | 数据中心 | CNBC新闻 |
| 95 | Ascend 310 | Huawei | 消费设备 | CNBC新闻 |
| 96 | Exynos 9810 | Samsung | 2.9GHz CPU+DL | Samsung新闻 |
| 97 | Hi3559A V100 | HiSilicon | 双核CNN@700MHz | HiSilicon PDF |
| 98 | Pixel Visual Core | Pixel 2图像ML | Google博客 | |
| 99 | TPU (Original) | 95 TFLOPS 8-bit | Google Cloud博客 | |
| 100 | TPU2 | 四芯片,180 TFLOPS | NextPlatform TPU2 | |
| 101 | TPU3 | TPU v2升级 | Weixin文章 | |
| 102 | Ali-NPU | Alibaba | 图像/视频分析 | TechNode Ali-NPU |
| 103 | Kunlun | Baidu | 云/边缘,30x FPGA | GitHub AI-Chip-List |
| 104 | S32V234 | NXP | ADAS视觉融合 | NXP S32V |
| 105 | Marvell AI SSD Controller | Marvell | NVDLA集成SSD | Marvell新闻 |
| 106 | DianNao | CAS | 小型高吞吐ML加速 | Novel ICT PDF |
| 107 | DaDianNao | CAS | ML超级计算机 | Novel ICT PDF |
| 108 | ShiDianNao | ICT | 传感器附近视觉 | EPFL PDF |
| 109 | PuDianNao | CAS | 多功能ML加速 | ACM PuDianNao |
| 110 | Cambricon | Cambricon | NN指令集 | UCSB PDF |
| 111 | Neurocube | GATech | 3D高密度神经 | ISCA PDF |
| 112 | RedEye | Rice | 移动连续视觉 | ASU PDF |
| 113 | EIE | Stanford/NVIDIA | 压缩DNN高效推理 | UVA PDF |
| 114 | PRIME | UC | ReRAM PIM NN | UCSB PRIME |
| 115 | ISAAC | U Utah/HP | 模拟算术CNN | Utah ISAAC |
| 116 | Cnvlutin | U Toronto | 无无效神经DNN | Toronto PDF |
| 117 | SCNN | NVIDIA/MIT | 稀疏CNN加速 | arXiv SCNN |
| 118 | TPU | 数据中心TPU分析 | arXiv TPU | |
| 119 | FloatPIM | UCSD | 高精度DNN训练 | ACM FloatPIM |
| 120 | TIE | Rutgers | TT-based DNN引擎 | ACM TIE |
ASIC的优势在于定制化,能效往往高于通用GPU,尤其在大规模部署中。
3. FPGA类(20个):原型开发,重配置灵活
FPGA适合快速迭代和自定义场景,AMD/Xilinx和Intel主导。
| 序号 | 芯片名称 | 厂商 | 描述 | 附录链接 |
|---|---|---|---|---|
| 121 | Alveo | Xilinx | 数据中心加速卡 | Xilinx ML |
| 122 | Versal AI Core | AMD/Xilinx | ACAP,AI引擎 | AMD Versal报告 |
| 123 | Alveo U50 | AMD/Xilinx | 数据中心FPGA | Xilinx Alveo U50 |
| 124 | Stratix 10 NX | Intel | FPGA+SoC AI优化 | Intel Stratix |
| 125 | UltraScale+ VU9P | AMD/Xilinx | 高带宽AI FPGA | Xilinx UltraScale |
| 126 | Arria 10 GX | Intel | 边缘FPGA | Intel Arria |
| 127 | Zynq UltraScale+ | AMD/Xilinx | 嵌入式AI | AMD Zynq |
| 128 | Kintex UltraScale | Xilinx | 中端AI加速 | Xilinx Kintex |
| 129 | Cyclone V | Intel | 低成本边缘FPGA | Intel Cyclone |
| 130 | Virtex UltraScale+ | AMD/Xilinx | 高端数据中心 | Xilinx Virtex |
| 131 | Agilex 7 | Intel | 下一代FPGA | Intel Agilex |
| 132 | Spartan-7 | AMD/Xilinx | 低功耗IoT FPGA | Xilinx Spartan |
| 133 | Artix-7 | AMD/Xilinx | 成本优化AI | Xilinx Artix |
| 134 | PolarFire | Microchip | 中低功耗FPGA | Microchip PolarFire |
| 135 | Versal Premium | AMD | 高I/O AI FPGA | AMD Versal Premium |
| 136 | Intel Arria 10 | Intel | 10nm FPGA | Intel Arria 10 |
| 137 | Lattice Certus-N2 | Lattice | 安全AI FPGA | Lattice Certus |
| 138 | QuickLogic eFPGA | QuickLogic | 嵌入式FPGA IP | QuickLogic eFPGA |
| 139 | Achronix Speedster7t | Achronix | 高性能AI FPGA | Achronix Speedster |
| 140 | Intel Stratix 10 | Intel | 高端逻辑FPGA | Intel Stratix 10 |
FPGA的灵活性使其在AI原型验证中不可或缺,但功耗较高。
4. NPU/其他专用类(40个):神经网络专注,边缘/移动优化
NPU针对神经网络设计,常集成在SoC中,适用于智能手机和IoT设备。
| 序号 | 芯片名称 | 厂商 | 描述 | 附录链接 |
|---|---|---|---|---|
| 141 | Snapdragon | Qualcomm | 移动SoC全平台AI | Forbes Snapdragon |
| 142 | Ethos-N78 | ARM | 边缘推理ML处理器 | ARM Ethos |
| 143 | NPX6 | Synopsys | 3500 TOPS NPU IP | Synopsys新闻 |
| 144 | PowerVR NNA | Imagination | NN加速器 | Imagination AI |
| 145 | DNN Graph Compiler | CEVA | 低功耗DL IP | CEVA DL |
| 146 | Vivante NPU | VeriSilicon | 可扩展NPU IP | VeriSilicon Vivante |
| 147 | Gap9 | GreenWaves | 超低功耗NN处理器 | EE Times GreenWaves |
| 148 | Snapdragon X Elite | Qualcomm | Oryon+NPU,Copilot PC | Qualcomm白皮书 |
| 149 | Apple Neural Engine (M4) | Apple | 端侧38 TOPS | Apple M4 |
| 150 | K210 | Canaan | RISC-V+KPU,0.8 TFLOPS | Canaan K210 |
| 151 | iTOP-3399 NPU | Rockchip | Android AI测试 | Rockchip RK3399 |
| 152 | V535 | Allwinner | 行车图像分类 | Allwinner V535 |
| 153 | Jetson Xavier NX | NVIDIA | 边缘21 TOPS | NVIDIA Jetson |
| 154 | Nervana NNP-T | Intel | 训练NPU | Intel Nervana |
| 155 | Snapdragon 8 Elite | Qualcomm | Gen 4移动AI | AIMultiple分析 |
| 156 | Snapdragon 8 Gen 3 | Qualcomm | Galaxy S24系列 | AIMultiple分析 |
| 157 | Dimensity 9400 | MediaTek | Oppo/Vivo/Samsung | AIMultiple分析 |
| 158 | Dimensity 9300 Plus | MediaTek | 高端移动NPU | AIMultiple分析 |
| 159 | Kirin 9000S | Huawei | Mate 60系列 | AIMultiple分析 |
| 160 | A18 Pro | Apple | iPhone 16 Pro | AIMultiple分析 |
| 161 | A18 | Apple | iPhone 16 | AIMultiple分析 |
| 162 | Exynos 2400 | Samsung | Exynos设备 | AIMultiple分析 |
| 163 | Exynos 2400e | Samsung | 变体移动 | AIMultiple分析 |
| 164 | Cloud AI 100 Pro | Qualcomm | 400 TOPS边缘 | AIMultiple分析 |
| 165 | MediaTek APU | MediaTek | Edge AI SDK | MediaTek新闻 |
| 166 | Kirin 980 | HiSilicon | 7nm双NPU | Huawei Kirin |
| 167 | Kirin 970 | HiSilicon | 专用NPU | AnandTech Kirin |
| 168 | RK3399Pro | Rockchip | 2.4 TOPS NPU | PRNewswire RK3399 |
| 169 | Qualcomm AI Engine | Qualcomm | Snapdragon 845+ | Qualcomm新闻 |
| 170 | A12 Bionic | Apple | 下一代Neural Engine | Apple A12 |
| 171 | A11 Bionic | Apple | 600B OPS/s | Wikipedia A11 |
| 172 | Myriad 2 | Movidius | 多核视觉SoC | Semanticscholar PDF |
| 173 | Myriad X | Movidius | Neural Compute Engine | Movidius MyriadX |
| 174 | ST Neural Network IC | STMicroelectronics | ISSCC 2017第二代 | EE News Europe |
| 175 | Ringo | Axelera AI | 边缘NPU,EuroHPC | Axelera报告 |
| 176 | Hailo-8 | Hailo | 26 TOPS边缘 | AIMultiple分析 |
| 177 | Movidius Myriad X | Intel | 4 TOPS,5W | AIMultiple分析 |
| 178 | TIE | Rutgers | 能量高效TT推理 | ACM TIE |
| 179 | GANAX | GATech/Qualcomm | GAN MIMD-SIMD | arXiv GANAX |
| 180 | Neural Cache | UMich/Intel | 位串行缓存加速 | UMich PDF |
NPU在移动端普及,推动端侧AI应用如实时翻译和图像识别。
5. 类脑/新兴类(19个):脑启发,低功耗模拟
这些芯片模拟神经元结构,功耗极低,适用于边缘计算和未来脑机接口。
| 序号 | 芯片名称 | 厂商 | 描述 | 附录链接 |
|---|---|---|---|---|
| 181 | Loihi 2 | Intel | 第二代,1M神经元 | Intel Loihi新闻 |
| 182 | TrueNorth | IBM | 1M神经元,70mW | IBM研究 |
| 183 | Akida | BrainChip | 边缘神经形态 | BrainChip Akida |
| 184 | Loihi | Intel | 自学习测试芯片 | Intel新闻 |
| 185 | FT:X 2000 | Optalysys | 光学AI协处理器 | Optalysys新闻 |
| 186 | SpinalFlow | U Utah | 脉冲NN数据流 | Utah ISCA PDF |
| 187 | Flexon | SNU/UC | 灵活数字神经元 | ACM Flexon |
| 188 | PROMISE | UIUC/IBM | 可编程混合信号加速 | NSF PAR |
| 189 | Brainwave | Microsoft | 云规模DNN | Microsoft ISCA |
| 190 | Cambricon-F | Cambricon | 分形冯诺依曼 | ACM Cambricon-F |
| 191 | TSP | Groq | 张量流处理器 | ISCA TSP |
| 192 | RANA | Tsinghua | 刷新优化eDRAM | IEEE RANA |
| 193 | Cambricon-s | USTC/CAS | 稀疏优化 | BRTResearch GitHub |
| 194 | Newton | Purdue | DRAM AiM | Micro Newton |
| 195 | FReaC Cache | UIUC/IBM | 可重配置缓存 | Micro FReaC |
| 196 | Look-Up Table Cache | Penn State/Intel | 缓存NN加速 | Micro LUT |
| 197 | NeuroCube | GrAI Matter Labs | 事件驱动 | GrAI论文 |
| 198 | SpiNNaker2 | ARM | 多核脑模拟 | ARM Neuromorphic |
| 199 | Darwin 3 | SynSense | 视网膜模拟 | SynSense项目 |
类脑芯片代表未来方向,功耗仅为传统芯片的1/1000。
总结与趋势
AI芯片生态正向Chiplet、存算一体和绿色计算演进。挑战包括供应链依赖(如TSMC)和生态兼容(如CUDA)。国产芯片崛起,预计2030年全球市场将更均衡。
若对特定芯片感兴趣,可进一步阅读链接。欢迎评论讨论!

参考文献
- basicmi/AI-Chip
- Stanford AI Index 2025
- AIMultiple Top AI Chip Makers
- BRTResearch/AIChip_Paper_List
- icochecker/AI-Chip-List
- https://zhuanlan.zhihu.com/p/1901560941151257195
- https://www.eet-china.com/mp/a382117.html
- https://zhuanlan.zhihu.com/p/18826366878
- http://www.cmpedu.com/ziyuans/ziyuan/117842.htm