[计算机/硬件/GPU] 显卡

  • 截至2025年,全球主流的AI大模型满血版的参数量均已突破百亿级 ,算力需求正以指数级飙升。特别是 DeepSeek 公司旗下的 R1 系列模型的问世,推动了很多中小企业部署私有化模型的需求。

  • 然而,面对动辄数十万上百万元的GPU采购成本,选错一块显卡可能让企业付出高昂的试错代价。

概述:显卡

显卡/Video Card

  • 显卡(Video card、Display card、Graphics card、Video adapter)
  • 作为计算机设备的基础组成部分之一
  • 其将计算机系统需要的显示信息进行转换驱动显示器,并向显示器提供逐行或隔行扫描信号,控制显示器的正确显示
  • 是连接显示器和个人计算机主板的重要组件,是"人机"的重要设备之一,其内置的并行计算能力 现阶段也用于AI/深度学习等运算。
  • 主要厂商:NVIDIA(英伟达)、AMD(超微半导体)、华为、

NVIDIA显示芯片的显卡称为N卡,而将采用AMD显示芯片的显卡称为A

显示芯片/GPU

  • 显示芯片 ( Video chipset )是显卡的主要处理单元
  • 因此,又称为图形处理器 (Graphic Processing Unit,GPU/VPU)
  • GPU是NVIDIA公司在1998年8月发布GeForce 256图形处理芯片 (代号:NV10,此核心简称为GeForce,这亦是NVIDIA第1个 "GeForce" 生产线)时首先提出的概念
  • 尤其是在处理3D图形 时,GPU使显卡 减少了对CPU的依赖,并完成部分原本属于CPU的工作。
  • GPU所采用的核心技术硬件T&L (几何转换和光照处理)、立方环境材质贴图顶点混合纹理压缩凹凸映射贴图双重纹理四像素256位渲染引擎 等,而硬件T&L技术可以说是GPU的标志。
  • 显卡 所支持的各种3D特效显示芯片的性能 决定,采用什么样的显示芯片大致决定了这块显卡的档次和基本性能

比如NVIDIA的GT系列和AMD的HD系列。

  • 衡量一个显卡好坏的方法 有很多,除了使用测试软件测试 比较外,还有很多指标可供用户比较显卡的性能,影响显卡性能的高低主要有显卡频率显示存储器等【性能指标】。

CPU vs.GPU

  • HBM / GPU / CPU

"HBM"是一款新型的CPU/GPU内存芯片

2023年,"HBM"由《科创板日报》评选为2023年十大科技热词。
HBM 成为 AI 服务器 搭载标配,满足海量算力需求

AI 大模型兴起催生海量算力需求,对芯片内存容量和传输带宽要求更高。

  • CPU / GPU / NPU
  • 普通服务器
  • 以CPU为核心,擅长逻辑处理与串行计算;
  • CPU提供强大通用计算能力,适合处理复杂逻辑任务;
  • 适用于Web服务、数据库、邮件服务器等通用IT服务
  • CPU能效比相对较低,处理大规模并行计算效率有限
  • 价格相对较低,易于扩展CPU、内存等资源
  • GPU服务器
  • 配备高性能GPU,专为并行计算与图形处理设计;
  • 提供数千至上万计算核心,单精度浮点性能可达数十TFLOPS(每秒万亿次浮点运算),显著优于同等价位CPU
  • 专攻AI训练/推理、3D渲染、科学计算、大数据分析等计算密集型任务
  • GPU架构高度并行,单位功耗下计算能力强,能效比优势明显
  • 初期投入较高,但可通过增加GPU卡实现性能线性提升

显卡的分类

集成显卡

  • 配置核芯显卡的CPU通常价格不高,同时低端核显难以胜任大型游戏。

  • 集成显卡 是将显示芯片显存 及其相关电路都集成在主板 上,与其融为一体的元件

  • 集成显卡的显示芯片有单独的,但大部分都集成在主板的北桥芯片中;

  • 一些主板集成的显卡也在主板上单独安装了显存,但其容量较小

  • 集成显卡 的显示效果与处理性能相对较弱,不能对显卡进行硬件升级 ,但可以通过CMOS调节频率或刷入新BIOS文件 实现软件升级来挖掘显示芯片的潜能。

  • 集成显卡 的优点是功耗低发热量小部分集成显卡的性能 已经可以媲美入门级的独立显卡

所以很多喜欢自己动手组装计算机的人不用花费额外的资金来购买独立显卡,便能得到自己满意的性能。

  • 集成显卡的缺点性能相对略低 ,且固化在主板CPU上,本身无法更换,如果必须换,就只能换主板。

独立显卡 =

  • 独立显卡 是指将显示芯片显存 及其相关电路 单独做在一块电路板 上,自成一体 而作为一块独立的板卡存在 ,它需占用主板的扩展插槽 (ISAPCIAGPPCI-E)。

  • 独立显卡的优点

  • 单独安装有显存,一般不占用系统内存
  • 在技术上也较集成显卡先进得多
  • 但性能肯定不差于集成显卡
  • 容易进行显卡的硬件升级
  • 独立显卡的缺点是:
  • 功耗有所加大
  • 发热量也较大
  • 需额外花费购买显卡的资金
  • 同时(特别是对笔记本电脑)占用更多空间。
    由于显卡性能的不同对于显卡要求也不一样,独立显卡 实际分为两类,一类专门为游戏设计的娱乐显卡/消费级显卡 ,一类则是用于绘图、3D渲染、AI计算的专业显卡。 [4]

核芯显卡

  • 核芯显卡Intel产品新一代图形处理核心
  • 和以往的显卡设计不同,Intel凭借其在处理器制程上的先进工艺以及新的架构设计,将图形核心处理核心 整合在同一块基板上,构成一个完整的处理器
  • 智能处理器架构 这种设计上的整合大大缩减了处理核心图形核心内存内存控制器间的数据周转时间,有效提升处理效能并大幅降低芯片组整体功耗,有助于缩小核心组件的尺寸,为笔记本、一体机等产品的设计提供了更大选择空间。
  • 需要注意的是,核芯显卡传统意义上的集成显卡并不相同。

  • 笔记本平台 采用的【图形解决方案】主要有"独立 "和"集成"两种:

  • 独立显卡拥有单独的图形核心和独立的显存,能够满足复杂庞大的图形处理需求,并提供高效的视频编码应用;
  • 集成显卡则将图形核心以单独芯片的方式集成在主板上,并且动态共享部分系统内存作为显存使用

因此能够提供简单的图形处理能力,以及较为流畅的编码应用。

  • 相对于前两者,核芯显卡 则将图形核心 整合在处理器 当中,进一步加强了图形处理的效率,并把集成显卡 中的"处理器+南桥+北桥 (图形核心+内存控制+显示输出)"三芯片解决方案 精简为"处理器 (处理核心+图形核心十内存控制)十主板芯片 (显示输出)"的双芯片模式

有效降低了核心组件的整体功耗,更利于延长笔记本的续航时间。

  • 低功耗核芯显卡最主要优势 ,由于新的精简架构及整合设计 ,核芯显卡对整体能耗的控制 更加优异,高效的处理性能大幅缩短了运算时间,进一步缩减了系统平台的能耗。

  • 高性能也是它的主要优势:核芯显卡拥有诸多优势技术,可以带来充足的图形处理能力,相较前一代产品其性能的进步十分明显。

  • 核芯显卡 可支持DX10/DX11SM4.0OpenGL2.0,以及全高清Full HD MPEG2 / H.264 / VC-1格式解码等技术,即将加入的性能动态调节更可大幅提升核芯显卡的处理能力,令其完全满足于普通用户的需求。

显卡的一般结构

  • 电容:电容是显卡中非常重要的组成部件,因为显示画质的优劣主要取决于电容的质量,而电容的好坏直接影响到显卡电路的质襞。
  • 显存:显存负责存储显示芯片需要处理的各种数据,其容量的大小,性能的高低,直接影响着电脑的显示效果。新显卡均采用DDR6/DDR5的显存, 主流显存容量一般为2GB ~ 4GB。
  • GPU及风扇:GPU即显卡芯片,它负责显卡绝大部分的计算工作,相当于CPU在电脑中的作用。GPU风扇的作用是给GPU散热。
  • 显卡接口:通常被叫做金手指,可分为PCI、 AGP和PCI Express三种,PCI和AGP显卡接口都基本被淘汰, 市面上主流显卡采用PCI Express的显卡。
  • 外设接口:显卡外设接口担负着显卡的输出任务,新显卡包括一个传统VGA模拟接口和一个或多个数字接口(DVI、HDMI和DP)。
  • 桥接接口:中高端显卡可支持多块同时工作,它们之间就是通过桥接器连接桥接口。

总线接口类型

ISA显卡

  • ISA显卡是以前最普遍使用的VGA显示器所能支持的古老显卡。

VESA显卡

  • VESA是"Video Electronic Standards Association"(视频电子工程标准协会 )的缩写,由多家计算机芯片制造商于1989年联合创立。
  • 1994年底,VESA发表了64位架构的"VESA Local Bus"标准,80486的个人计算机大多采用这一标准的显卡。 [6]

PCI显卡

  • PCI(Peripheral Component Interconnect)显卡,通常被使用于较早期或精简型的计算机 中,此类计算机由于将AGP标准插槽 移除而必须仰赖PCI接口的显卡。
  • 已知被多数的使用于486Pentium II早期的时代。
  • 但直到显示芯片无法直接支持AGP之前,仍有部分厂商持续制造以AGPPCI为基底的显卡。
  • 已知最新型的PCI接口显卡,是
  • GeForce GT 610 PCI(SPARKLE制)型号为 GRSP610L1024LC
  • ATI HD 4350 PCI(HIS制)
  • HIS HD 5450 PCI(HIS制)
  • HIS 5450 Silence 512MB DDR3 PCI DVI/HDMI/VGA 产品编号 H545H512P

AGP显卡

  • AGP(Accelerated Graphics Port)是英特尔(Intel)公司在1996年开发的32位总线接口,用以增进计算机系统中的显示性能。
  • 分有AGP 1X、AGP 2X、AGP 4X及最后的AGP 8X,带宽分别为266MB/s、533MB/s、1066MB/s、以及2133 MB/s。
  • 其中AGP 4X以后已跟之前电压不兼容。
  • 其中3DLABS的"Wildcat4 7210"是最强的专业级AGP图形加速卡,而ATI公司的RadeonHD4670、HD3850,是2007年性能最强的消费级AGP图形加速卡。 [6]

PCI Express显卡(PCI-E) = 显卡最新的图形接口

  • PCI Express(亦称PCI-E)是显卡最新的图形接口 ,用来取代AGP显卡,面对日后3D显示技术 的不断进步,AGP的带宽已经不足以应付庞大的数据运算

  • 性能最高PCI-Express显卡是NVIDIA公司的"NVIDIA Titan V"和AMD公司的"Radeon Pro Duo(Fiji)"。

  • 现时,2007年后出产的显卡可支持双显卡技术(NVIDIA的SLi及nvlink和AMD的CrossFire)。

外接PCI Express显卡

  • USBThunderbolt高带宽线材连接到外接PCI Express显卡盒,需要用独立电源供应

性能指标

显卡频率

  • 显卡频率 主要指显卡的核心频率显存频率,均以MHz(兆赫兹)为单位。

(1)核心频率

  • 显卡的核心频率 是指显示核心的工作频率
  • 工作频率在一定程度上可以反映出显示核心的性能
  • 显卡的性能 是由核心频率、流处理器单元、显存频率、显存位宽等多方面的情况所决定

因此,在显示核心不同的情况下,核心频率高并不代表 此显卡性能强劲。

比如,GTS250核心频率达到了750MHz,要比GTX260+的576MHz高,但在性能上GTX260+绝对要强于GTS250。

  • 在同样级别的芯片中,核心频率高的则性能要强一些。

  • 主流显示芯片 只有AMD和NVIDIA两家,两家都提供显示核心给第三方的厂商,在同样的显示核心下,部分厂商 会适当提高其产品的显示核心频率,使其工作在高于显示核心固定的频率上以达到更高的性能。

(2)显存频率

  • 显存频率 一定程度上反应着该显存的速度显存频率的高低显存类型有非常大的关系。
  • 显存频率显存时钟周期 是相关的,二者成倒数关系

即:显存频率 ( MHz)=1/显存时钟周期(NS)Xl000

  • 但要明白的是,显卡制造 时,厂商 设定了显存实际工作频率 ,而实际工作频率 不一定等于显存最大频率,此类情况较为常见。

显示存储器

  • 显示存储器 简称显存 ,也称为帧缓存
  • 顾名思义,其主要功能 就是暂时储存显示芯片处理过或即将提取的渲染数据 ,类似于主板的内存 ,是衡量显卡的主要性能指标之一。
  • 显存系统内存 一样,其容量也是越多越好,图形核心的性能越强,需要的显存也就越大,因为显存越大,可以存储的图像数据就越多,支持的分辨率与颜色数也就越高,游戏运行起来就更加流畅。
  • 主流显卡 基本上具备的是6GB容量,一些中高端显卡则配备了6GB、8GB的显存容量

显存类型

  • 显存类型显卡存储器 采用的存储技术类型 ,市场上主要的显存类型SDDR2GDDR2GDDR3GDDR5几种

  • 主流的显卡 大都采用了GDDR3的显存类型,也有一些中高端显卡 采用的是GDDR5

  • DDR3相比,DDR5类型的显卡拥有更高的频率性能也更加强大。

显存位宽

  • 显存位宽 指的是一次可以读入的数据量

即表示显存显示芯片 之间交换数据的速度
位宽 越大,显存显示芯片之间数据的交换就越顺畅。
通常说的某个显卡的规格2GB 128bit,其中128bit指的就是这块显卡的显存位宽

流处理器单元

  • DX10显卡 出来以前,并没有"流处理器"这个说法。

  • GPU 内部由"管线 "构成,分为像素管线顶点管线 ,它们的数目是固定的。简单来说:

  • 顶点管线 主要负责3D建模
  • 像素管线 负责3D渲染
    由于它们的数量是固定的 ,这就出现了一个问题:当某个游戏场景需要大量的3D建模 而不需要太多的像素处理 ,就会造成顶点管线资源紧张像素管线大量闲置 ,当然也有截然相反的另一种情况。
    这都会造成某些资源的【资源紧张】和另一些资源的【闲置浪费】

在这样的情况下,人们在DX10时代首次提出了"统一渲染架构 ",显卡 取消了传统的"像素管线 "和"顶点管线 ",统一改为流处理器单元 ,它既可以进行顶点运算 也可以进行像素运算 ,这样在不同的场景中,显卡就可以动态地分配 进行顶点运算像素运算的【流处理器数量】,达到资源的充分利用。

  • 流处理器的数量的多少 已经成为了决定显卡性能高低的一个很重要的指标
  • NVIDIAAMD也在不断地增加显卡的流处理器数量 使显卡的性能达到跳跃式增长
  • 值得一提的是,N卡和AGPU架构 并不一样,对于流处理器数的分配也不一样。双方没有直接可比性

著名显卡公司

以下公司曾经或正在生产显示芯片或显卡;包含已经倒闭、退出显卡市场或被并购的公司。

3dfx(已被NVIDIA收购)

3DLABS

Accel Graphics

Avance Logic

AMD(超威)

Appian

Artist Graphics

Ark Logic

ATI(冶天,已被AMD收购)

Canopus(康能普视)

Cirrus Logic(凌云逻辑)

Colorgraphic(彩图)

Creative(创新)

DEC(迪吉多)

Diamond Multimedia(帝盟)

Dynamic Pictures

Everex

Genoa(热那亚)

Headland

Hercules(大力神)

I-O DATA

Intel(英特尔)

Intense3D

IXMicro

Kasan

Lung Hwa(陇华)

MECHREVO(机械革命)

Macronix(旺宏)

Matrox(迈创)

Matsushita(松下)

Motorola(摩托罗拉)

Mpact

NEC(日本电气)

Number Nine

NVIDIA(英伟达)

Orchid(兰花)

OAK

PowerVR

Quantum3D(昆腾3D)

Realtek(瑞昱)

RealVision

Rendition

S3 Graphics

Sigma Designs

SiS(矽统)

STB Systems

STMicroelectronics(意法半导体)

Tandy(坦迪)

Tech Source

Trident(泰鼎)

Tseng Labs(曾氏)

Western Design Center(西方设计中心)

Weitek

XGI(图诚)

ASUS(华硕)

GIGABYTE(技嘉)

MSI(微星)

EVGA(艾维克)

PowerColoer(撼讯)

Galaxy(影驰)

Zotac

中小企业、家庭用户在购买显卡的注意事项

  1. 明确需求和预算

    需求定位:根据使用场景选择显卡。例如,家庭用户主要用于游戏或轻量级办公,可以选择中低端显卡;中小企业用于图形设计或视频编辑,则需要中高端显卡。

    预算规划:显卡价格从几百元到上万元不等。例如,预算在2000-3000元的用户可以选择NVIDIA RTX 4060 Ti或AMD RX 7600,这些显卡性价比高,能满足大多数游戏和图形处理需求。

  2. 性能指标

    核心性能:核心数量和频率越高,显卡性能越强。

    显存容量和类型:显存容量应至少为8GB,推荐选择GDDR6或更高版本的显存。

    支持技术:如果需要光线追踪或AI加速功能,建议选择支持DLSS或类似技术的显卡。

  3. 兼容性

    硬件兼容性:确保显卡与主板的PCIe插槽兼容(如PCIe 3.0或4.0),并确认电源功率足够支持显卡运行。

    软件兼容性:检查显卡是否支持所需的操作系统和软件。

  4. 散热和功耗

    散热设计:良好的散热系统可以防止显卡过热,确保性能稳定。建议选择多风扇或液冷散热的显卡。

    功耗:高性能显卡功耗较大,需确认电源是否能满足需求。

  5. 品牌和售后服务

    品牌选择:优先选择知名品牌,如华硕、微星、技嘉等,这些品牌的产品质量更有保障。

    售后服务:关注保修政策,如保修期长短、是否支持个人送保等。

  6. 其他注意事项

    显卡尺寸:确保显卡能适配机箱,特别是小机箱用户。

    接口类型:检查显卡的输出接口(如HDMI、DisplayPort)是否与显示器兼容。

    防坑技巧:购买后录制开箱视频,检查显卡是否有使用痕迹或损坏,确保SN码与包装一致。

  • 推荐型号
  • 预算有限:NVIDIA RTX 3050、AMD RX 6500 XT
  • 中端需求:NVIDIA RTX 4060 Ti、AMD RX 7600
  • 高性能需求:NVIDIA RTX 4070、AMD RX 7700 XT
    综合考虑以上因素,可以帮助用户在众多显卡产品中找到最适合自己的型号。

显卡性能天梯图

桌面级/消费级

AI级

AI显卡算力排行榜

主要显卡售价

主流显卡

热门显卡

NVIDIA H100:当前最先进的AI显卡

简介

一般会买8块H100连成一组,也是最贵的显卡,3万美金1块,国内报价30万+,但是买不到

  • 英伟达H100芯片是2022年3月22日芯片巨头英伟达在GTC技术大会上公布的一款全新架构的GPU芯片。

这款芯片将会使用台积电最新的四纳米工艺采取新一代的Hopper架构,拥有800亿个晶体管。英伟达,这款芯片于2022年第三季度上市。

  • 规格参数
  • 使用台积电最新的四纳米工艺,采取新一代的Hopper架构,拥有800亿个晶体管,也是迄今为止该公司推出的最为强大的一款GPU,将取代两年前的Ampere架构。
  • H100也将成为全球最大的一款加速芯片。
  • 英伟达称这种新技术芯片可以大幅提升人工智能算法的计算速度,未来有望成为人工智能基础设施的核心。
  • 相关动态
  • 2022年5月,日本一零售商以4745950日元(约合人民币24.16万元)的价格,挂出了NVIDIA最新的H100 Hopper加速计算卡。

参数配置:H100

架构: Hooper

目标: AI训练, HPC

CUDA Core: 16896

Tensor Core: 528

RT Core: 0

GDDR: HBM3 80GB

内存带宽: 3.35TB/s

int4: 0

int8: 3958 TOPS

FP8: 3958 TFLOPS

FP16: 1979 TFLOPS

BF16: 1979 TFLOPS

tf32: 989TFLOPS

fp32: 60TFLOPS

fp64: 1TFLOPS

RT TFLOPS: 0

编解码器: 7 NVDEC, JPEG

多实例GPU(MIG): 最多7 MIGs @ 10GB

基频: 0

boost主频: 0

功耗: 700W

GPU P2P: NVLink 4.0 900GB/s

是否禁售: 是

NVIDIA A100:仅次于H100的前最好的AI显卡

  • 2022年以前最好的 AI显卡
  • 国外售价1.2万美元1块,国内报价15万左右,几乎买不到

参数配置:A100

架构: Ampere

目标: AI训练, HPC

CUDA Core: 6912

Tensor Core: 432

RT Core: 0

GDDR: HBM2 40GB HBM2e 80GB

内存带宽: 2039GB/s

int4: 0

int8: 624TOPS

FP8: 0

FP16: 312TFLOPS

BF16: 312TFLOPS

tf32: 156TFLOPS

fp32: 19.5TFLOPS

fp64: 9.7TFLOPS

RT TFLOPS: 0

编解码器: 0

多实例GPU(MIG): 最多7 MIGs @ 10GB

基频: 0

boost主频: 1410 MHz

功耗: 400W

GPU P2P: NVLink 3.0 600GB/s

是否禁售: 是

NVIDIA H800,H20,A800:性能受限版的AI显卡

  • H800 是H100的中国特供版,限制了 NVLink带宽等参数,目前也不好买。
  • H20 是在H800的继续削弱版,性能上再次于H100。
  • A800 是A100的中国特供版,限制了 NVLink带宽等参数,性能上稍逊于 A100。

需要注意的是,虽然一割再割,h800和h20等显卡现在也是不好买到的

能买到的还是值得买的

参数配置:H800

架构: Hooper

目标: AI训练, HPC

CUDA Core: 16896

Tensor Core: 528

RT Core: 0

GDDR: HBM3 80GB

内存带宽: 3.35TB/s

int4: 0

int8: 3958 TOPS

FP8: 3958 TFLOPS

FP16: 1979 TFLOPS

BF16: 1979 TFLOPS

tf32: 989TFLOPS

fp32: 60TFLOPS

fp64: 1TFLOPS

RT TFLOPS: 0

编解码器: 7 NVDEC, JPEG

多实例GPU(MIG): 最多7 MIGs @ 10GB

基频: 0

boost主频: 0

功耗: 700W

GPU P2P: NVLink 4.0 400GB/s

是否禁售: 是

参数配置:A800

架构: Ampere

目标: AI训练, HPC

CUDA Core: 6912

Tensor Core: 432

RT Core: 0

GDDR: HBM2e 80GB

内存带宽: 2039GB/s

int4: 0

int8: 624TOPS

FP8: 0

FP16: 312TFLOPS

BF16: 312TFLOPS

tf32: 156TFLOPS

fp32: 19.5TFLOPS

fp64: 9.7TFLOPS

RT TFLOPS: 0

编解码器: 0

多实例GPU(MIG): 最多7 MIGs @ 10GB

基频: 0

boost主频: 1410 MHz

功耗: 400W

GPU P2P: NVLink 3.0 400GB/s

是否禁售: 是

NVIDIA A30

参数配置:A30

A30

架构: Ampere

目标: AI训练, AI推理

CUDA Core: 3584

Tensor Core: 224

RT Core: 0

GDDR: HBM2 24GB

内存带宽: 933GB/s

int4: 661TOPS

int8: 330TOPS

FP8: 0

FP16: 165TFLOPS

BF16: 165TFLOPS

tf32: 82TFLOPS

fp32: 10.3TFLOPS

fp64: 5.2TFLOPS

RT TFLOPS: 0

编解码器: 1 JPEG decoder, 4 video decoders

多实例GPU(MIG): 4 MIGs @ 6GB, 2 MIGs @ 12GB

基频: 0

boost主频: 1440 MHz

功耗: 165W

GPU P2P: PCIe-G4 64GB/s

是否禁售: 否

NVIDIA A10

参数配置:A10

A10

架构: Ampere

目标: AI推理, 渲染

CUDA Core: 9216

Tensor Core: 288

RT Core: 72

GDDR: GDDR6 24GB

内存带宽: 600GB/s

int4: 500 TOPS

int8: 250TOPS

FP8: 0

FP16: 125TFLOPS

BF16: 125TFLOPS

tf32: 62.5TFLOPS

fp32: 31.2TFLOPS

fp64: 0

RT TFLOPS: yes

编解码器: 1编码器, 2解码器 (+AV1 decode)

多实例GPU(MIG): 0

基频: 0

boost主频: 1695 MHz

功耗: 150W

GPU P2P: PCIe-G4 64GB/s

是否禁售: 否

NVIDIA V100

参数配置:V100

V100

架构: Volta

目标: AI训练, HPC

CUDA Core: 7680

Tensor Core: 640

RT Core: 0

GDDR: HBM2 32GB

内存带宽: 900GB/s

int4: 0

int8: 60TOPS

FP8: 0

FP16: 125TFLOPS

BF16: 0

tf32: 0

fp32: 15.7TFLOPS

fp64: 7.8TFLOPS

RT TFLOPS: 0

编解码器: 0

多实例GPU(MIG): 0

基频: 0

boost主频: 1530 MHz

功耗: 300W

GPU P2P: NVLink 2.0 300 GB/s

是否禁售: 否

NVIDIA T4

参数配置:T4

T4

架构: Turing

目标: AI推理, 渲染

CUDA Core: 2560

Tensor Core: 320

RT Core: 40

GDDR: GDDR6 16GB

内存带宽: 300GB/s

int4: 260TOPS

int8: 130TOPS

FP8: 0

FP16: 65TFLOPS

BF16: 0

tf32: 0

fp32: 8.1TFLOPS

fp64: 0

RT TFLOPS: yes

编解码器: NVENC, NVDEC, JPEG decoders

多实例GPU(MIG): 0

基频: 0

boost主频: 1590 MHz

功耗: 70W

GPU P2P: PCIe-G3 32GB/s

是否禁售: 否

NVIDIA A20

参数配置:A20

H20

架构: Hooper

目标: AI训练, HPC

CUDA Core: 0

Tensor Core: 0

RT Core: 0

GDDR: HBM3 96GB

内存带宽: 4.0TB/s

int4: 0

int8: 296 TOPS

FP8: 296 TFLOPS

FP16: 148 TFLOPS

BF16: 148 TFLOPS

tf32: 74 TFLOPS

fp32: 44 TFLOPS

fp64: 1 TFLOPS

RT TFLOPS: 0

编解码器: 7 NVDEC, 7 NVJPEG

多实例GPU(MIG): 最多7 MIGs

基频: 0

boost主频: 0

功耗: 400W

GPU P2P: NVLink 4.0 900GB/s

是否禁售: 否

NVIDIA L2

参数配置:L2

L2

架构: Ada Lovelace

目标: AI推理, 渲染

CUDA Core: 0

Tensor Core: 0

RT Core: 0

GDDR: GDDR6 24GB

内存带宽: 300 GB/s

int4: 0

int8: 193 TOPS

FP8: 193 TFLOPS

FP16: 96.5TFLOPS

BF16: 96.5TFLOPS

tf32: 48.3TFLOPS

fp32: 24.1TFLOPS

fp64: 0

RT TFLOPS: yes

编解码器: 2 NVENC(+AV1), 4 NVDEC, 4 NVJPEG

多实例GPU(MIG): 0

基频: 0

boost主频: 0

功耗: TBD

GPU P2P: PCIe-G4 64GB/s

是否禁售: 否

NVIDIA L20

参数配置:L20

L20

架构: Ada Lovelace

目标: AI推理, 渲染

CUDA Core: 0

Tensor Core: 0

RT Core: 0

GDDR: GDDR6 48GB

内存带宽: 864GB/s

int4: 0

int8: 239 TOPS

FP8: 239 TFLOPS

FP16: 119.5 TFLOPS

BF16: 119.5 TFLOPS

tf32: 59.8TFLOPS

fp32: 59.8TFLOPS

fp64: 0

RT TFLOPS: yes

编解码器: 3 NVENC(+AV1), 3NVDEC, 4NVJPEG

多实例GPU(MIG): 0

基频: 0

boost主频: 0

功耗: 275W

GPU P2P: PCIe-G4 64GB/s

是否禁售: 否

NVIDIA L4

参数配置:L4

L4

架构: Ada Lovelace

目标: AI推理, 渲染

CUDA Core: 7680

Tensor Core: 240

RT Core: 60

GDDR: GDDR6 24GB

内存带宽: 300GB/s

int4: 0

int8: 485TOPS

FP8: 485 TFLOPS

FP16: 242TFLOPS

BF16: 0

tf32: 0

fp32: 120TFLOPS

fp64: 0

RT TFLOPS: yes

编解码器: NVENC, NVDEC, JPEG decoders

多实例GPU(MIG): 0

基频: 0

boost主频: 2040 MHz

功耗: 72W

GPU P2P: PCIe-G4 64GB/s

是否禁售: 是

NVIDIA L40

参数配置:L40

L40

架构: Ada Lovelace

目标: AI推理, 渲染

CUDA Core: 18176

Tensor Core: 568

RT Core: 142

GDDR: GDDR6 48GB

内存带宽: 864GB/s

int4: 724TOPS

int8: 362TOPS

FP8: 362 TFLOPS

FP16: 181.05TFLOPS

BF16: 181.05TFLOPS

tf32: 90.5TFLOPS

fp32: 90.5TFLOPS

fp64: 0

RT TFLOPS: 209TFLOPS

编解码器: 3x NVENC, 3x NVDEC (AV1)

多实例GPU(MIG): 0

基频: 0

boost主频: 2490MHz

功耗: 300W

GPU P2P: PCIe Gen4x16 64GB/s

是否禁售: 是

NVIDIA L40s

参数配置:L40s

架构: Ada Lovelace

目标: AI训练, AI推理, 渲染

CUDA Core: 18176

Tensor Core: 568

RT Core: 142

GDDR: 48GB GDDR6 with ECC

内存带宽: 864GB/s

int4: 733TOPS

int8: 733TOPS

FP8: 733 TFLOPS

FP16: 362.05TFLOPS

BF16: 362.05TFLOPS

tf32: 183 TFLOPS

fp32: 91.6 TFLOPS

fp64: 0

RT TFLOPS: 212TFLOPS

编解码器: 3x NVENC, 3x NVDEC (AV1)

多实例GPU(MIG): 0

基频: 0

boost主频: 0

功耗: 350W

GPU P2P: PCIe Gen4x16 64GB/s

是否禁售: 是

NVIDIA A40

参数配置: A40

A40

架构: Ampere

目标: AI训练, AI推理, 渲染

CUDA Core: 10752

Tensor Core: 336

RT Core: 84

GDDR: GDDR6 48G

内存带宽: 696 GB/s

int4: 598.7

int8: 299.3

FP8: 0

FP16: 149.7

BF16: 0

tf32: 0

fp32: 37.4

fp64: 0

RT TFLOPS: 0

编解码器: 1x NVENC, 2x NVDEC (AV1 decode)

多实例GPU(MIG): 0

基频: 0

boost主频: 1740MHz

功耗: 300 W

GPU P2P: PCIe-G4 64GB/s

是否禁售: 否

NVIDIA RTX5090,RTX4090:性价比之王的AI显卡、尖端家用游戏显卡

  • 首先要知道的事:RTX5090,RTX4090的出厂定位是家用游戏显卡
  • 它们【不适合】做大模型训练 ,但是它们适合用来做AI推理
  • 通俗的说:
  • 你要是训练一个DeepSeek这些显卡做不到
  • 但是部署运行一个已训练好的DeepSeek 等模型,这些显卡很值
  • RTX5090目前国内买不到,有RTX5090D阉割版

参数配置:RTX4090

RTX 4090

架构: Ada Lovelace

目标: AI训练, AI推理, 渲染

CUDA Core: 16384

Tensor Core: 512

RT Core: 128

GDDR: GDDR6X 24G

内存带宽: 1008 GB/s

int4: 0

int8: 660.6 TOPS

FP8: 0

FP16: 330.3 TFLOPS

BF16: 0

tf32: 0

fp32: 82.58 TFLOPS

fp64: 1,290 GFLOPS

RT TFLOPS: 191 TFLOPS

编解码器: NVENC, NVDEC, AV1编码, AV1解码

多实例GPU(MIG): 0

基频: 0

boost主频: 2520MHz

功耗: 450W

GPU P2P: PCIe-G4 64GB/s

是否禁售: 是

参数配置:RTX4090D

RTX 4090D

架构: Ada Lovelace

目标: AI训练, AI推理, 渲染

CUDA Core: 14592

Tensor Core: 456

RT Core: 114

GDDR: GDDR6X 24G

内存带宽: 1008 GB/s

int4: 0

int8: 0

FP8: 0

FP16: 0

BF16: 0

tf32: 0

fp32: 73.5 TFLOPS

fp64: 1149 GFLOPS

RT TFLOPS: 0

编解码器: NVENC: 2x 8th Gen, NVDEC: 5th Gen

多实例GPU(MIG): 0

基频: 2280MHz

boost主频: 2520MHz

功耗: 425W

GPU P2P: PCIe-G4 64GB/s

是否禁售: 否

NVIDIA RTX 4060(TI)

NVIDIA RTX3090

参数配置:RTX3090

RTX 3090

架构: Ampere

目标: AI训练, AI推理, 渲染

CUDA Core: 10496

Tensor Core: 328

RT Core: 82

GDDR: GDDR6X 24 G

内存带宽: 936.2 GB/s

int4: 0

int8: 0

FP8: 0

FP16: 142

BF16: 0

tf32: 71

fp32: 35.58 TFLOPS

fp64: 556.0 GFLOPS

RT TFLOPS: 35.6 TFLOPS

编解码器: 0

多实例GPU(MIG): 0

基频: 0

boost主频: 1395 MHz

功耗: 350W

GPU P2P: PCIe-G4 64GB/s

是否禁售: 否

NVIDIA RTX 3060(TI)

国产AI显卡

  • 现在是不是可以考虑国产显卡跑本地大模型了?
  • 可以用了,目前DeepSeek已经有大量的国产厂商发布了适配的新闻。
  • 首推【华为昇腾910系列】,细分型号有点复杂。不同渠道有不同的型号
  • 具体哪个型号可以,需要的可以自己整理
  • 但是[个人(Weixin:数据库工作笔记)]的角度:
  • 如果只部署固定的模型例如DeepSeek,可以考虑国产AI显卡
  • 如果还要跑其他各种模型和任务
  • 目前兼容性还得是英伟达因为cuda的护城河太厚。
  • 暂时还是英伟达的方案更优。

AMD显卡

  • 同上面的国产显卡
  • AMD目前正在努力发展兼容性
  • 但是目前坑还是很多
  • 非专业人士不建议去踩

FAQ for 显卡/GPU

Q: 英伟达显卡后面的"Ti"是指?

  • Ti通常代表该显卡是加强版高级版

‌ + NVIDIA显卡中的"Ti"标识表示该显卡是性能加强版‌。

  • Ti是"Titanium"的缩写,意味着这些显卡在性能 上有所提升,通常比不带Ti的版本拥有更高的CUDA核心数量、更快的显存、更高的GPU频率或其他方面的性能增强。
  • Ti版本通常是基于相同系列的普通版本但经过一定的强化,适用于追求极致性能的用户‌
  • 在NVIDIA的产品线中,无论是中端还是顶级旗舰显卡,都可能看到Ti的身影。Ti版本代表着该系列中的佼佼者,是追求高性能玩家的首选‌

例如,GTX 1080 Ti比GTX 1080拥有更多的CUDA核心、更高的频率和更快的显存带宽,因此在游戏、专业图形工作和计算任务中表现更为出色‌

  • 以 RTX 3060 和 RTX 3060TI 为例
  • 核心规格和性能差异
    ‌>> + 流处理器数量‌:3060 Ti拥有4864个流处理器,而3060仅有3584个,这使得3060 Ti在处理复杂图形任务时表现出更强的能力。
    ‌>> + 显存容量‌:3060 Ti的显存为8GB,而3060为12GB。尽管3060的显存看似更大,但在实际使用中,3060 Ti通常能以更高的频率处理游戏数据,从而提升整体性能。
    ‌>> + 功耗‌:3060 Ti的TDP(热设计功耗)为200W,而3060为170W。这意味着使用3060 Ti可能需要更高功率的电源,但其性能回报也更为显著。
  • 游戏性能对比

在2K分辨率下,3060 Ti比3060强约30%。

具体游戏测试中,如《瘟疫传说安魂曲》、《最后生还者1》、《霍格沃兹遗产》和《赛博朋克2077》,3060 Ti在最高画质下的帧率普遍高于3060,提升幅度在20%左右。

  • 适用场景
    ‌>> 3060‌:适合预算有限的用户,尤其是在1080P分辨率下表现优秀,适合日常使用和轻量级游戏。
    ‌>> 3060 Ti‌:适合追求高分辨率(如2K)和高帧率的游戏玩家,以及需要进行复杂图形处理的专业创作者。其性能提升在高端市场上更为显著。

Q: NVIDIA A100、H100、RTX 4090、RTX 4060 和 RTX 3060 的对比

  • 数据中心级GPU(A100/H100/A800/H800):
  • A100 和 H100 是高性能计算核心,适用于AI训练、超算等场景。H100的第四代Tensor Core和FP8支持使其在生成式AI中表现突出14。
  • A800 和 H800 是针对中国市场限制的调整版本,主要削减互联带宽(如NVLink),但算力基本保留,价格因供需失衡可能更高8。
  • 消费级GPU(RTX 4060 Ti/3060 Ti):
  • RTX 4060 Ti:凭借Ada架构和DLSS 3技术,在1080p下性能领先3060 Ti约18%,但显存位宽(128bit)和带宽(288GB/s)低于3060 Ti(256bit/448GB/s)1116。
  • RTX 3060 Ti:性价比仍较高,适合预算有限的玩家,但功耗较高且不支持DLSS 3212。
  • 价格与市场:
  • 数据中心级GPU价格受出口限制和供需影响波动较大(如H800现货价格曾达13万元人民币)8。
  • 消费级显卡中,RTX 4060 Ti因显存容量和架构升级,适合追求新技术的用户,但需关注降价空间
    基于公开参数及评测数据整理:
参数/型号 NVIDIA A100 NVIDIA H100 RTX 4090 RTX 4060 RTX 3060
定位 数据中心/深度学习 数据中心/高性能计算 消费级旗舰(游戏/创作) 消费级主流(游戏/轻度创作) 消费级甜品(游戏/入门级创作)
架构 Ampere Hopper Ada Lovelace Ada Lovelace Ampere
CUDA 核心数 6912 16896 (TPC集群) 16384 3072 3584
显存容量 40/80GB HBM2e 80GB HBM3 24GB GDDR6X 8GB GDDR6 12GB GDDR6
显存位宽 5120-bit 5120-bit 384-bit 128-bit 192-bit
显存带宽 1.5TB/s (HBM2e) 3.35TB/s (HBM3) 1008 GB/s 272 GB/s 360 GB/s
FP32 浮点性能 19.5 TFLOPS 51 TFLOPS 82.58 TFLOPS 15.11 TFLOPS 12.7 TFLOPS
Tensor Core 第三代(支持TF32/BF16) 第四代(支持FP8) 第四代(支持DLSS 3) 第四代(支持DLSS 3) 第三代(支持DLSS 2)
功耗(TDP) 250W-400W 700W (SXM5) 450W 115W 170W
应用场景 AI训练/推理、HPC 超大规模AI模型、超级计算 4K游戏、8K渲染、专业创作 1080P/2K游戏、轻量级创作 1080P游戏、入门级设计
价格(参考) ~$10,000+ | ~$30,000+ ~¥15,000+ ¥2399(首发) ¥2100(当前均价)

补充说明

  1. 性能差异

    • A100/H100:专为数据中心设计,支持大规模并行计算,A100在深度学习训练中表现远超消费级显卡(如RTX 4090的FP32性能虽高,但缺少专用AI优化)。
    • RTX 4090:消费级旗舰,适合高分辨率游戏和渲染,但显存带宽和容量低于专业卡。
    • RTX 4060:1080P游戏表现比RTX 3060提升约15%,但显存位宽和容量缩减可能影响高分辨率表现。
    • RTX 3060:12GB大显存适合部分专业应用,但核心性能落后于4060。
  2. 能效比

    • RTX 4060的115W功耗显著低于RTX 3060(170W),适合ITX小机箱和笔记本。
    • A100/H100的高功耗需搭配专用散热和供电系统,适用于服务器环境。
  3. 性价比建议

    • 游戏用户:预算充足选RTX 4090,追求性价比可考虑RTX 4060或二手RTX 3060 Ti。
    • AI开发者:A100/H100是行业标杆,但成本极高;RTX 4090可用于小规模实验或推理任务。
  4. 显存与光追

    • RTX 40系支持DLSS 3,帧生成技术显著提升光追游戏帧率(如赛博朋克2077开启DLSS 3后性能翻倍)。
    • RTX 3060的12GB显存在某些场景(如AI绘图)优于RTX 4060的8GB。

:价格和性能数据可能因市场波动和驱动更新变化,建议参考最新评测。

Q: 中小企业或个人用户可以使用 RTX 4060 / RTX4090 训练 AI大模型吗?

RTX4060

特性 RTX 4060 说明
显存容量 8GB GDDR6 显存有限,适合小规模模型(如 1.5B 参数量)或经过量化优化的模型。
计算能力 15.11 TFLOPS (FP32) 足够应对入门级 AI 训练任务,但不适合大规模模型。
适用场景 小规模模型训练、量化模型推理、轻量级 AI 应用 适合个人用户或中小企业的小型项目。
显存优化建议 混合精度训练 (FP16)、4-bit/8-bit 量化 可显著降低显存需求。
多卡并行 支持多卡并行 可通过多张 RTX 4060 协同训练稍大规模的模型。
系统配置建议 CPU:至少 4 核,推荐 8 核 内存:至少 16GB,推荐 32GB 存储:大容量 SSD(4TB-8TB) 提升整体训练效率。

RTX4090

  • 性价比之王:RTX5090,RTX4090

首先要知道的事:RTX5090,RTX4090的出厂定位是家用游戏显卡

它们不适合做大模型训练,但是它们适合用来做AI推理

通俗的说:

你要是训练一个DeepSeek这些显卡做不到

但是运行一个已训练好的DeepSeek 等模型,这些显卡很值

RTX5090目前国内买不到,有RTX5090D阉割版
RTX 4090 可以用于训练 AI 大模型,但存在一些限制,尤其对中小企业或个人用户而言。

优势

  1. 性能强劲:RTX 4090 拥有 24GB GDDR6X 显存和强大的 CUDA 核心,适合中小规模模型训练。
  2. 性价比高:相比专业 GPU,RTX 4090 提供了较高的性价比。
  3. 广泛支持:支持主流深度学习框架,如 TensorFlow 和 PyTorch。

限制

  1. 显存限制:24GB 显存对大规模模型可能不足,需通过梯度累积或模型并行缓解。
  2. 计算能力:虽然强大,但相比专业 GPU 如 A100,计算能力仍有差距。
  3. 散热与功耗:RTX 4090 功耗高,需良好的散热和电源支持。
  4. 扩展性:单卡训练效率有限,多卡扩展复杂且成本高。

适用场景

  1. 中小规模模型:适合 BERT、GPT-2 等中小规模模型。
  2. 研究与实验:适合个人开发者或小团队进行研究和实验。
  3. 微调与推理:适合微调预训练模型或进行推理任务。

总结

RTX 4090 适合中小企业或个人用户训练中小规模模型或进行研究实验,但对于超大规模模型,显存和计算能力可能不足,需考虑专业 GPU 或云计算平台。

Q: AMD显卡 vs NIVDIA 显卡?

Q: 任一两款显卡的参数对比

  • 芯参数网

https://www.xincanshu.com/gpu/

Y 推荐文献

X 参考文献

相关推荐
千千寰宇8 天前
[AI/GPT] 硅基流动(SiliconFlow) : AI大模型时代的基础设施
ai/aigc/gpt·ai/aigc/gpt-基础设施
千千寰宇11 天前
[大模型/AI/GPT] Chatbox:大模型可视化终端应用
ai/aigc/gpt
千千寰宇2 个月前
[AI] 基于大模型的AI搜索引擎
ai/aigc/gpt