英伟达显卡型号发布史与架构演进详解
目录
- 概述
- 英伟达显卡发布历史总览表
- 架构演进:从图形到AI的蓝图
- GeForce产品线演进:从游戏到全能
- 3D游戏起步期 (1999--2004)
- [DirectX 9与统一着色器 (2004--2008)](#DirectX 9与统一着色器 (2004–2008))
- Fermi的阵痛与复苏 (2010--2012)
- 能效与性能的平衡 (2013--2016)
- Pascal:游戏与AI的里程碑 (2016--2018)
- RTX时代:光追与AI降临 (2018--至今)
- 技术演进数据可视化
- 总结
概述
英伟达显卡的发展史,核心主线是 GPU架构的迭代 与 GeForce产品线的演进。以下将按时间顺序,为您梳理两大主线的关键节点。
核心发展脉络
英伟达显卡发展主线:
┌─────────────────────────────────┐
│ 架构演进:GPU的"设计蓝图" │
│ - 决定核心计算单元 │
│ - 内存系统和编程模型 │
│ - 从图形处理到AI计算 │
└─────────────────────────────────┘
↓
┌─────────────────────────────────┐
│ GeForce产品线:面向市场的实现 │
│ - 游戏玩家和创作者 │
│ - 型号命名与架构、定位相关 │
│ - 从游戏到全能应用 │
└─────────────────────────────────┘
英伟达显卡发布历史总览表
完整历史时间线(1999-2024)
| 年份 | 显卡型号 | 架构代号 | 制程工艺 | 晶体管数 | CUDA核心 | 显存 | 显存位宽 | 关键特性 |
|---|---|---|---|---|---|---|---|---|
| 1999 | GeForce 256 | NV10 | 220nm | 23,000,000 | - | 32MB DDR | 128-bit | 首款GPU,硬件T&L |
| 2000 | GeForce 2 GTS | NV15 | 180nm | 25,000,000 | - | 32-64MB DDR | 128-bit | 双像素管线 |
| 2001 | GeForce 3 | NV20 | 150nm | 57,000,000 | - | 64MB DDR | 128-bit | DirectX 8,可编程着色器 |
| 2002 | GeForce 4 Ti | NV25 | 150nm | 63,000,000 | - | 64-128MB DDR | 128-bit | 双顶点着色器 |
| 2004 | GeForce 6800 | NV40 | 130nm | 222,000,000 | - | 128-256MB GDDR3 | 256-bit | DirectX 9,Shader Model 3.0 |
| 2005 | GeForce 7800 GTX | G70 | 110nm | 302,000,000 | - | 256MB GDDR3 | 256-bit | 24像素管线 |
| 2006 | GeForce 8800 GTX | G80 (Tesla) | 90nm | 681,000,000 | 128 | 768MB GDDR3 | 384-bit | 统一着色器,DirectX 10 |
| 2008 | GeForce 9800 GTX | G92 | 65nm | 754,000,000 | 128 | 512MB GDDR3 | 256-bit | Tesla优化版 |
| 2010 | GeForce GTX 480 | GF100 (Fermi) | 40nm | 3,000,000,000 | 480 | 1536MB GDDR5 | 384-bit | 完整缓存层次,ECC |
| 2011 | GeForce GTX 580 | GF110 (Fermi) | 40nm | 3,000,000,000 | 512 | 1536MB GDDR5 | 384-bit | Fermi改进版 |
| 2012 | GeForce GTX 680 | GK104 (Kepler) | 28nm | 3,540,000,000 | 1536 | 2GB GDDR5 | 256-bit | SMX架构,GPU Boost |
| 2013 | GeForce GTX 780 Ti | GK110 (Kepler) | 28nm | 7,080,000,000 | 2880 | 3GB GDDR5 | 384-bit | 旗舰Kepler |
| 2014 | GeForce GTX 980 | GM204 (Maxwell) | 28nm | 5,200,000,000 | 2048 | 4GB GDDR5 | 256-bit | 极致能效比 |
| 2015 | GeForce GTX 980 Ti | GM200 (Maxwell) | 28nm | 8,000,000,000 | 2816 | 6GB GDDR5 | 384-bit | 性价比之王 |
| 2016 | GeForce GTX 1080 | GP104 (Pascal) | 16nm | 7,200,000,000 | 2560 | 8GB GDDR5X | 256-bit | 16nm工艺,NVLink |
| 2017 | GeForce GTX 1080 Ti | GP102 (Pascal) | 16nm | 11,800,000,000 | 3584 | 11GB GDDR5X | 352-bit | 一代卡皇 |
| 2017 | Titan V | GV100 (Volta) | 12nm | 21,100,000,000 | 5120 | 12GB HBM2 | 3072-bit | 首款Tensor Core |
| 2018 | GeForce RTX 2080 | TU104 (Turing) | 12nm | 13,600,000,000 | 2944 | 8GB GDDR6 | 256-bit | RT Core,DLSS |
| 2018 | GeForce RTX 2080 Ti | TU102 (Turing) | 12nm | 18,600,000,000 | 4352 | 11GB GDDR6 | 352-bit | 旗舰Turing |
| 2020 | GeForce RTX 3070 | GA104 (Ampere) | 8nm | 17,400,000,000 | 5888 | 8GB GDDR6 | 256-bit | 第二代RTX |
| 2020 | GeForce RTX 3080 | GA102 (Ampere) | 8nm | 28,300,000,000 | 8704 | 10GB GDDR6X | 320-bit | 光追性能大幅提升 |
| 2020 | GeForce RTX 3090 | GA102 (Ampere) | 8nm | 28,300,000,000 | 10496 | 24GB GDDR6X | 384-bit | 旗舰Ampere |
| 2022 | GeForce RTX 4070 | AD104 (Ada Lovelace) | 5nm (4N) | 35,800,000,000 | 5888 | 12GB GDDR6X | 192-bit | DLSS 3 |
| 2022 | GeForce RTX 4080 | AD103 (Ada Lovelace) | 5nm (4N) | 45,900,000,000 | 9728 | 16GB GDDR6X | 256-bit | 4K光追性能飞跃 |
| 2022 | GeForce RTX 4090 | AD102 (Ada Lovelace) | 5nm (4N) | 76,300,000,000 | 16384 | 24GB GDDR6X | 384-bit | 760亿晶体管,性能巅峰 |
| 2024 | Blackwell B100 | Blackwell | 4nm | - | - | 192GB HBM3e | - | 数据中心AI加速 |
按架构分类统计
| 架构系列 | 时间跨度 | 代表产品 | 核心特点 | 制程范围 |
|---|---|---|---|---|
| 早期图形架构 | 1999-2006 | GeForce 256-8800 | 固定功能到统一着色器 | 220nm-90nm |
| Fermi | 2010-2012 | GTX 400/500 | 完整缓存层次,HPC优化 | 40nm |
| Kepler | 2012-2014 | GTX 600/700 | SMX架构,能效提升 | 28nm |
| Maxwell | 2014-2016 | GTX 900 | 极致能效比 | 28nm |
| Pascal | 2016-2018 | GTX 10 | 16nm工艺,NVLink | 16nm |
| Volta | 2017 | Titan V | 首款Tensor Core | 12nm |
| Turing | 2018-2020 | RTX 20/GTX 16 | RT Core,DLSS | 12nm |
| Ampere | 2020-2022 | RTX 30 | 第二代RTX,光追普及 | 8nm |
| Ada Lovelace | 2022-至今 | RTX 40 | DLSS 3,4K光追 | 5nm (4N) |
| Blackwell | 2024-至今 | B100/B200 | 下一代AI加速 | 4nm |
关键指标演进趋势
晶体管数量演进(对数刻度):
1999: 23,000,000 (GeForce 256)
2006: 681,000,000 (GeForce 8800 GTX)
2010: 3,000,000,000 (GeForce GTX 480)
2012: 3,540,000,000 (GeForce GTX 680)
2014: 5,200,000,000 (GeForce GTX 980)
2016: 7,200,000,000 (GeForce GTX 1080)
2017: 11,800,000,000 (GeForce GTX 1080 Ti)
2018: 18,600,000,000 (GeForce RTX 2080 Ti)
2020: 28,300,000,000 (GeForce RTX 3090)
2022: 76,300,000,000 (GeForce RTX 4090)
CUDA核心数演进:
1999-2005: 固定功能单元
2006-2009: 128-240 CUDA核心 (Tesla)
2010-2011: 480-512 CUDA核心 (Fermi)
2012-2013: 1536-2880 CUDA核心 (Kepler)
2014-2015: 2048-2816 CUDA核心 (Maxwell)
2016-2017: 2560-3584 CUDA核心 (Pascal)
2018: 2944-4352 CUDA核心 (Turing)
2020: 5888-10496 CUDA核心 (Ampere)
2022: 5888-16384 CUDA核心 (Ada Lovelace)
显存容量演进:
1999: 32MB DDR (GeForce 256)
2002: 64-128MB DDR (GeForce 4)
2006: 768MB GDDR3 (GeForce 8800 GTX)
2010: 1.5GB GDDR5 (GeForce GTX 480)
2012: 2GB GDDR5 (GeForce GTX 680)
2014: 4GB GDDR5 (GeForce GTX 980)
2016: 8GB GDDR5X (GeForce GTX 1080)
2017: 11GB GDDR5X (GeForce GTX 1080 Ti)
2018: 11GB GDDR6 (GeForce RTX 2080 Ti)
2020: 24GB GDDR6X (GeForce RTX 3090)
2022: 24GB GDDR6X (GeForce RTX 4090)
显存位宽演进:
1999-2001: 128-bit
2002-2005: 128-256-bit
2006-2010: 256-384-bit
2012-2015: 256-384-bit
2016-2017: 256-352-bit
2018-2020: 192-384-bit
2022: 192-384-bit
制程工艺演进:
1999: 220nm
2000: 180nm
2001: 150nm
2004: 130nm
2005: 110nm
2006: 90nm
2008: 65nm
2010: 40nm
2012: 28nm
2016: 16nm
2017: 12nm
2020: 8nm
2022: 5nm (4N)
2024: 4nm
架构演进:从图形到AI的蓝图
架构是GPU的"设计蓝图",决定了其核心计算单元(如CUDA Core、RT Core、Tensor Core)、内存系统和编程模型。其演进历程可大致分为三个阶段:
早期图形架构 (1999--2006)
GeForce 256 / NV10 (1999)
历史意义:首款被定义为GPU的产品
关键特性:
- 引入了硬件 T&L (Transform & Lighting)
- 将3D变换和光照计算从CPU中解放出来
- 是GPU时代的开端
技术影响:
CPU时代 → GPU时代
┌─────────────────────────────────┐
│ 之前:CPU处理所有3D计算 │
│ 之后:GPU专门处理图形计算 │
└─────────────────────────────────┘
Kelvin / Rankine / Curie (2001--2004)
对应产品:GeForce 3/4/6/7系列
技术演进:
- 逐步完善了DirectX 8/9支持
- 引入顶点/像素着色程序
- 提升了显存容量与视频解码能力
架构特点:
| 架构代号 | 对应系列 | 主要特性 |
|---|---|---|
| Kelvin | GeForce 3/4 | DirectX 8支持 |
| Rankine | GeForce 5 | 性能优化 |
| Curie | GeForce 6/7 | DirectX 9、Shader Model 3.0 |
Tesla (2006)
对应产品:GeForce 8/9/200系列
革命性突破:
- 首次采用 统一着色器架构
- 所有核心可处理任意类型的着色任务
- 奠定了 CUDA 通用计算的基础
- 使GPU成为通用并行处理器
技术意义:
统一着色器架构的意义:
┌─────────────────────────────────┐
│ 之前:固定功能单元 │
│ - 顶点着色器 │
│ - 像素着色器 │
│ - 各自独立 │
└─────────────────────────────────┘
↓
┌─────────────────────────────────┐
│ 之后:统一着色器 │
│ - 所有核心可处理任意任务 │
│ - 资源利用率大幅提升 │
│ - 为CUDA通用计算铺路 │
└─────────────────────────────────┘
技术细节:
- 流处理器(SP):每个SP可执行顶点、几何、像素着色器任务
- 流多处理器(SM):包含8个SP,共享指令缓存和纹理缓存
- CUDA架构:G80核心拥有128个SP,分为16个SM
- 性能提升:相比GeForce 7系列,性能提升2-3倍
- DirectX 10:首批完整支持DirectX 10的显卡
- 市场影响:GeForce 8800 GTX成为当时性能王者,奠定了NVIDIA在高端市场的地位
GPGPU与能效优化 (2010--2016)
Fermi (2010)
对应产品:GeForce 400/500系列
关键创新:
- 首次引入完整的 缓存层次结构 (L1/L2)
- 引入 ECC校验
- 强化了GPU在高性能计算(HPC)领域的可靠性与实用性
技术特点:
Fermi架构特点:
┌─────────────────────────────────┐
│ ✅ 完整缓存层次 │
│ ✅ ECC错误校验 │
│ ✅ HPC领域可靠性 │
│ ❌ 功耗和发热巨大(初期) │
└─────────────────────────────────┘
Kepler (2012)
对应产品:GeForce 600/700系列
核心改进:
- 通过SMX架构大幅提升了能效
- 引入 GPU Boost 动态超频技术
- 旗舰GK110核心在超级计算机中广泛应用
性能提升:
| 特性 | 说明 |
|---|---|
| SMX架构 | 能效比大幅提升 |
| GPU Boost | 动态超频,根据温度自动调整 |
| 超级计算机应用 | GK110核心用于高性能计算 |
Maxwell (2014)
对应产品:GeForce 900系列
设计理念 :专注于 极致能效比
技术特点:
- 通过架构和制程优化,实现了"少核心、高效率"
- GTX 750 Ti被誉为一代"神卡"
- 在性能和功耗间取得完美平衡
能效比提升:
Maxwell能效比革命:
┌─────────────────────────────────┐
│ 设计理念:少核心、高效率 │
│ - 架构优化 │
│ - 制程优化 │
│ - 性能功耗比大幅提升 │
└─────────────────────────────────┘
技术细节:
- SMM架构:Maxwell的流多处理器(SMM)相比Kepler的SMX,能效提升约40%
- 动态负载平衡:改进的调度器可以更高效地分配工作负载
- GTX 750 Ti:采用GM107核心,仅需75W功耗,性能却接近GTX 650 Ti Boost
- GTX 980:GM204核心,165W TDP,性能超越GTX 780 Ti(250W)
- 市场表现:GTX 970/980成为Steam平台最受欢迎的显卡之一
Pascal (2016)
对应产品:GeForce 10系列
技术突破:
- 制程跃进至16nm
- 性能功耗比大幅提升
- 首次在消费级显卡上引入 NVLink 高速互联
- 高端型号采用 HBM2 高带宽显存
- 为AI和HPC应用奠定基础
关键特性:
| 技术 | 说明 | 影响 |
|---|---|---|
| 16nm制程 | 制程大幅提升 | 性能功耗比提升 |
| NVLink | 高速互联技术 | 多卡协同性能提升 |
| HBM2 | 高带宽显存 | 显存带宽大幅提升 |
AI时代与光追革命 (2017至今)
Volta (2017)
历史意义 :首款引入 Tensor Core 的架构
产品定位:
- 主要面向数据中心(Tesla V100)
- Titan V是其消费级代表
技术特点:
-
Tensor Core专为深度学习矩阵运算设计
-
开启了GPU在AI领域的专业化道路
Tensor Core的意义:
┌─────────────────────────────────┐
│ 之前:通用计算单元处理AI │
│ 之后:专用Tensor Core │
│ - 矩阵运算性能大幅提升 │
│ - AI训练效率飞跃 │
└─────────────────────────────────┘
Turing (2018)
对应产品:GeForce RTX 20系列
革命性突破:首次在消费级显卡上同时集成
- RT Core (光追核心):实时光线追踪
- Tensor Core (AI核心):AI加速
技术影响:
- 开启了实时光线追踪和DLSS技术的新时代
- 用"RTX"取代了"GTX"作为高端代称
- 同期的GTX 16系列基于Turing架构但无光追核心,主打高性价比
核心特性:
Turing架构双核心:
┌─────────────────────────────────┐
│ RT Core:实时光线追踪 │
│ - 游戏画面真实感大幅提升 │
│ - 光影效果更加逼真 │
└─────────────────────────────────┘
┌─────────────────────────────────┐
│ Tensor Core:AI加速 │
│ - DLSS技术 │
│ - AI创作加速 │
└─────────────────────────────────┘
技术细节:
- RT Core:每个RT Core可执行光线-三角形相交测试,性能是软件实现的10-25倍
- Tensor Core:第二代Tensor Core,支持INT8和INT4精度,AI推理性能大幅提升
- DLSS 1.0:深度学习超采样,使用AI提升游戏帧率,同时保持画质
- 可变速率着色(VRS):允许对画面不同区域使用不同的着色率,提升性能
- 网格着色器:新的几何处理管线,提升复杂场景的渲染效率
- 市场反应:初期因光追游戏较少而受争议,但随着游戏支持增加,逐渐被认可
Ampere (2020)
对应产品:GeForce RTX 30系列
技术特点:
- 第二代RTX架构
- 大幅增强了RT/Tensor Core性能
- 引入 多实例GPU (MIG) 技术
- 是AI训练和高性能计算的"主力军"
市场定位:
- RTX 30系列大幅降低了光追门槛
- RTX 3060/3070等型号在游戏和AI创作领域都极具性价比
性能提升:
| 方面 | 提升 |
|---|---|
| RT Core性能 | 大幅增强 |
| Tensor Core性能 | 大幅增强 |
| 光追门槛 | 大幅降低 |
| AI创作性能 | 显著提升 |
Ada Lovelace (2022)
对应产品:GeForce RTX 40系列
技术特点:
- 第三代RTX架构
- 采用台积电4N工艺
- 着色器、光追和AI性能全面提升
- 支持DLSS 3技术
- 在4K光追游戏中表现突出
旗舰产品:
- RTX 4090拥有760亿晶体管
- 24GB GDDR6X显存
- 性能达到新的高度
技术规格:
Ada Lovelace架构特点:
┌─────────────────────────────────┐
│ 制程:台积电4N │
│ 晶体管:760亿(RTX 4090) │
│ 显存:24GB GDDR6X │
│ 技术:DLSS 3 │
└─────────────────────────────────┘
Blackwell (2024)
产品定位:面向下一代AI的超大规模架构
对应产品:
- 数据中心产品B100/B200
- 消费级市场仍在等待基于新架构的GeForce显卡
技术重点:
- 重点优化Transformer引擎
- 支持FP4精度
- 为万亿参数大模型提供算力支持
应用场景:
Blackwell架构定位:
┌─────────────────────────────────┐
│ 目标:下一代AI │
│ - Transformer引擎优化 │
│ - FP4精度支持 │
│ - 万亿参数大模型 │
└─────────────────────────────────┘
GeForce产品线演进:从游戏到全能
GeForce是英伟达面向游戏玩家和创作者的核心品牌,其型号命名与架构、定位紧密相关。
3D游戏起步期 (1999--2004)
GeForce 256 / 2 / 3 / 4
市场地位:奠定了NVIDIA在3D游戏市场的霸主地位
技术里程碑:
- GeForce 3首次支持DirectX 8
- GeForce 4则通过NV25/NV28等核心区分高低端市场
产品定位:
早期GeForce产品线:
┌─────────────────────────────────┐
│ GeForce 256:GPU时代开端 │
│ GeForce 2:性能提升 │
│ GeForce 3:DirectX 8支持 │
│ GeForce 4:市场细分 │
└─────────────────────────────────┘
DirectX 9与统一着色器 (2004--2008)
GeForce 6 / 7系列
技术特点:
- 全面转向DirectX 9
- 采用Curie架构
- 支持Shader Model 3.0
- 提升了显存容量和视频播放能力
GeForce 8 / 9系列
历史意义:基于Tesla统一着色器架构
技术突破:
- 是首批支持DirectX 10的显卡
- 性能飞跃
- GeForce 8800 GTX是当时的性能王者
性能对比:
| 系列 | 架构 | DirectX支持 | 性能特点 |
|---|---|---|---|
| GeForce 6/7 | Curie | DirectX 9 | 性能提升 |
| GeForce 8/9 | Tesla | DirectX 10 | 性能飞跃 |
Fermi的阵痛与复苏 (2010--2012)
GeForce 400/500系列
发展历程:
- 架构大改,但GF100核心因功耗和发热巨大而饱受争议
- 后续的GF110改进版(GTX 580)才挽回口碑
- 证明了Fermi架构的潜力
产品演进:
Fermi架构演进:
┌─────────────────────────────────┐
│ GF100:初期问题 │
│ - 功耗巨大 │
│ - 发热严重 │
│ - 市场争议 │
└─────────────────────────────────┘
↓
┌─────────────────────────────────┐
│ GF110:改进版 │
│ - GTX 580 │
│ - 性能优化 │
│ - 口碑挽回 │
└─────────────────────────────────┘
能效与性能的平衡 (2013--2016)
GeForce 600/700系列 (Kepler)
代表产品:
- GTX 680:凭借出色的能效比和GPU Boost技术成为经典
- GTX 780 Ti和Titan系列:代表了当时的性能顶峰
技术特点:
- 出色的能效比
- GPU Boost动态超频技术
- 性能达到新的高度
GeForce 900系列 (Maxwell)
代表产品:
- GTX 970/980:在性能和功耗间取得完美平衡
- GTX 980 Ti:公认的性价比之王
市场表现:
Maxwell系列市场表现:
┌─────────────────────────────────┐
│ GTX 970/980:完美平衡 │
│ - 性能出色 │
│ - 功耗控制优秀 │
│ - 市场热销 │
└─────────────────────────────────┘
┌─────────────────────────────────┐
│ GTX 980 Ti:性价比之王 │
│ - 性能接近旗舰 │
│ - 价格更亲民 │
│ - 玩家首选 │
└─────────────────────────────────┘
Pascal:游戏与AI的里程碑 (2016--2018)
GeForce 10系列 (Pascal)
技术特点:
- 采用16nm工艺
- 性能功耗比空前强大
- 首次实现桌面与移动GPU规格统一
市场表现:
- GTX 1080 Ti成为一代"卡皇"
- GTX 1060长期是Steam平台最受欢迎的显卡之一
产品定位:
| 型号 | 定位 | 特点 |
|---|---|---|
| GTX 1080 Ti | 卡皇 | 性能巅峰 |
| GTX 1080 | 高端 | 性能强劲 |
| GTX 1070 | 中高端 | 性价比高 |
| GTX 1060 | 主流 | 最受欢迎 |
RTX时代:光追与AI降临 (2018--至今)
Turing架构 (2018)
产品线:
- RTX系列 :用"RTX"取代了"GTX"作为高端代称
- RTX 20系列首次将实时光追和DLSS技术带入游戏
- GTX 16系列:基于Turing架构但无光追核心,主打高性价比
技术影响:
RTX时代开启:
┌─────────────────────────────────┐
│ RTX 20系列 │
│ - 实时光线追踪 │
│ - DLSS技术 │
│ - AI加速 │
└─────────────────────────────────┘
┌─────────────────────────────────┐
│ GTX 16系列 │
│ - 无光追核心 │
│ - 高性价比 │
│ - 主流市场 │
└─────────────────────────────────┘
Ampere架构 (2020)
产品线:RTX 30系列
市场定位:
- 大幅降低了光追门槛
- RTX 3060/3070等型号在游戏和AI创作领域都极具性价比
产品特点:
| 型号 | 定位 | 特点 |
|---|---|---|
| RTX 3090 | 旗舰 | 性能巅峰 |
| RTX 3080 | 高端 | 性能强劲 |
| RTX 3070 | 中高端 | 性价比高 |
| RTX 3060 | 主流 | 光追入门 |
Ada Lovelace架构 (2022)
产品线:RTX 40系列
技术特点:
- 在4K分辨率下实现了光追性能的飞跃
- DLSS 3技术进一步提升了帧率
- 旗舰RTX 4090拥有760亿晶体管和24GB GDDR6X显存
性能表现:
Ada Lovelace性能:
┌─────────────────────────────────┐
│ 4K光追性能:飞跃 │
│ DLSS 3:帧率大幅提升 │
│ RTX 4090:性能新高度 │
└─────────────────────────────────┘
Blackwell架构 (2024)
产品定位:
- 目前主要应用于数据中心(B100/B200)
- 消费级市场仍在等待基于新架构的GeForce显卡
技术方向:
- 面向下一代AI
- 优化Transformer引擎
- 支持FP4精度
- 为万亿参数大模型提供算力
技术演进数据可视化
DirectX支持演进
| 年份 | DirectX版本 | 代表产品 | 关键特性 |
|---|---|---|---|
| 1999 | DirectX 7 | GeForce 256 | 硬件T&L |
| 2001 | DirectX 8 | GeForce 3 | 可编程着色器 |
| 2004 | DirectX 9 | GeForce 6800 | Shader Model 3.0 |
| 2006 | DirectX 10 | GeForce 8800 | 统一着色器模型 |
| 2009 | DirectX 11 | GeForce 400 | 计算着色器 |
| 2014 | DirectX 12 | GeForce 900 | 底层API |
| 2018 | DirectX 12 Ultimate | RTX 20 | 光线追踪,网格着色器 |
着色器模型演进
着色器模型演进:
┌─────────────────────────────────────────────┐
│ DirectX 8 (2001): │
│ - 顶点着色器 1.0 │
│ - 像素着色器 1.0 │
│ - 可编程着色器 │
└─────────────────────────────────────────────┘
↓
┌─────────────────────────────────────────────┐
│ DirectX 9 (2004): │
│ - Shader Model 2.0/3.0 │
│ - 更长的着色器程序 │
│ - 动态分支 │
└─────────────────────────────────────────────┘
↓
┌─────────────────────────────────────────────┐
│ DirectX 10 (2006): │
│ - 统一着色器架构 │
│ - 几何着色器 │
│ - Shader Model 4.0 │
└─────────────────────────────────────────────┘
↓
┌─────────────────────────────────────────────┐
│ DirectX 11 (2009): │
│ - 计算着色器 │
│ - 曲面细分 │
│ - Shader Model 5.0 │
└─────────────────────────────────────────────┘
↓
┌─────────────────────────────────────────────┐
│ DirectX 12 (2014): │
│ - 底层API │
│ - 多线程渲染 │
│ - Shader Model 6.0 │
└─────────────────────────────────────────────┘
↓
┌─────────────────────────────────────────────┐
│ DirectX 12 Ultimate (2018): │
│ - 实时光线追踪 │
│ - 网格着色器 │
│ - 可变速率着色 │
└─────────────────────────────────────────────┘
显存类型演进
| 时期 | 显存类型 | 带宽 | 代表产品 | 特点 |
|---|---|---|---|---|
| 1999-2001 | SDR/DDR | 2.7-5.3 GB/s | GeForce 256-3 | 早期显存 |
| 2002-2005 | DDR/GDDR3 | 8-35 GB/s | GeForce 4-7800 | 双倍数据速率 |
| 2006-2010 | GDDR3/GDDR5 | 57-192 GB/s | GeForce 8800-GTX 580 | GDDR5革命 |
| 2012-2016 | GDDR5 | 192-320 GB/s | GTX 680-1080 | GDDR5成熟期 |
| 2016-2017 | GDDR5X | 320-484 GB/s | GTX 1080 Ti | 更高带宽 |
| 2017 | HBM2 | 900 GB/s | Titan V | 高带宽显存 |
| 2018-2020 | GDDR6 | 448-616 GB/s | RTX 20-30 | GDDR6普及 |
| 2020-2022 | GDDR6X | 760-1008 GB/s | RTX 3090-4090 | 更高频率 |
| 2024 | HBM3e | >5000 GB/s | Blackwell | 下一代显存 |
功耗演进趋势
功耗演进(典型TDP):
┌─────────────────────────────────────────────┐
│ 早期 (1999-2005): │
│ GeForce 256: 15W │
│ GeForce 6800: 60W │
│ GeForce 7800 GTX: 85W │
└─────────────────────────────────────────────┘
↓
┌─────────────────────────────────────────────┐
│ Fermi时代 (2010-2011): │
│ GTX 480: 250W (功耗剧增) │
│ GTX 580: 244W │
└─────────────────────────────────────────────┘
↓
┌─────────────────────────────────────────────┐
│ Kepler-Maxwell (2012-2015): │
│ GTX 680: 195W (能效优化) │
│ GTX 980: 165W │
│ GTX 980 Ti: 250W │
└─────────────────────────────────────────────┘
↓
┌─────────────────────────────────────────────┐
│ Pascal-RTX (2016-2022): │
│ GTX 1080: 180W │
│ GTX 1080 Ti: 250W │
│ RTX 2080 Ti: 260W │
│ RTX 3090: 350W │
│ RTX 4090: 450W (性能提升,功耗增加) │
└─────────────────────────────────────────────┘
性能提升倍数(相对GeForce 256)
性能提升倍数(估算,基于3DMark等基准测试):
┌─────────────────────────────────────────────┐
│ 1999: GeForce 256 = 1x (基准) │
│ 2000: GeForce 2 GTS ≈ 2x │
│ 2001: GeForce 3 ≈ 3x │
│ 2004: GeForce 6800 ≈ 8x │
│ 2006: GeForce 8800 GTX ≈ 20x │
│ 2010: GeForce GTX 480 ≈ 50x │
│ 2012: GeForce GTX 680 ≈ 100x │
│ 2014: GeForce GTX 980 ≈ 150x │
│ 2016: GeForce GTX 1080 ≈ 250x │
│ 2018: GeForce RTX 2080 Ti ≈ 400x │
│ 2020: GeForce RTX 3090 ≈ 600x │
│ 2022: GeForce RTX 4090 ≈ 1000x │
└─────────────────────────────────────────────┘
架构核心单元演进
核心单元演进:
┌─────────────────────────────────────────────┐
│ 早期 (1999-2005): │
│ - 固定功能单元 │
│ - 顶点管线 │
│ - 像素管线 │
└─────────────────────────────────────────────┘
↓
┌─────────────────────────────────────────────┐
│ Tesla (2006-2009): │
│ - 统一着色器 │
│ - CUDA核心 │
│ - 流处理器(SP) │
└─────────────────────────────────────────────┘
↓
┌─────────────────────────────────────────────┐
│ Fermi-Kepler (2010-2013): │
│ - CUDA核心 │
│ - 流多处理器(SM/SMX) │
│ - 纹理单元 │
│ - ROP单元 │
└─────────────────────────────────────────────┘
↓
┌─────────────────────────────────────────────┐
│ Maxwell-Pascal (2014-2017): │
│ - CUDA核心 │
│ - 流多处理器(SMM) │
│ - 纹理单元 │
│ - ROP单元 │
└─────────────────────────────────────────────┘
↓
┌─────────────────────────────────────────────┐
│ Turing-Ampere (2018-2020): │
│ - CUDA核心 │
│ - RT Core (光线追踪) │
│ - Tensor Core (AI加速) │
│ - 流多处理器(SM) │
└─────────────────────────────────────────────┘
↓
┌─────────────────────────────────────────────┐
│ Ada Lovelace (2022-至今): │
│ - CUDA核心 (第三代) │
│ - RT Core (第三代) │
│ - Tensor Core (第四代) │
│ - 流多处理器(SM) │
│ - 光流加速器 │
└─────────────────────────────────────────────┘
技术特性演进时间线
| 年份 | 技术特性 | 代表产品 | 影响 |
|---|---|---|---|
| 1999 | 硬件T&L | GeForce 256 | GPU时代开启 |
| 2001 | 可编程着色器 | GeForce 3 | 图形编程革命 |
| 2004 | Shader Model 3.0 | GeForce 6800 | 着色器能力提升 |
| 2006 | 统一着色器架构 | GeForce 8800 | CUDA基础 |
| 2006 | CUDA | GeForce 8 | GPGPU时代 |
| 2010 | 完整缓存层次 | GeForce GTX 480 | HPC应用 |
| 2012 | GPU Boost | GeForce GTX 680 | 动态超频 |
| 2014 | 极致能效比 | GeForce GTX 980 | 能效革命 |
| 2016 | NVLink | GeForce GTX 1080 | 多卡协同 |
| 2017 | Tensor Core | Titan V | AI加速 |
| 2018 | RT Core | GeForce RTX 2080 | 实时光追 |
| 2018 | DLSS | GeForce RTX 2080 | AI超采样 |
| 2020 | 第二代RTX | GeForce RTX 3090 | 光追普及 |
| 2022 | DLSS 3 | GeForce RTX 4090 | 帧生成技术 |
显存带宽演进图
显存带宽演进:
┌─────────────────────────────────────────────┐
│ 1999: 2.7 GB/s (GeForce 256 DDR) │
│ 2002: 8.0 GB/s (GeForce 4 Ti DDR) │
│ 2004: 35 GB/s (GeForce 6800 GDDR3) │
│ 2006: 86 GB/s (GeForce 8800 GTX GDDR3) │
│ 2010: 177 GB/s (GeForce GTX 480 GDDR5) │
│ 2012: 192 GB/s (GeForce GTX 680 GDDR5) │
│ 2014: 224 GB/s (GeForce GTX 980 GDDR5) │
│ 2016: 320 GB/s (GeForce GTX 1080 GDDR5X) │
│ 2017: 484 GB/s (GeForce GTX 1080 Ti) │
│ 2017: 900 GB/s (Titan V HBM2) │
│ 2018: 616 GB/s (GeForce RTX 2080 Ti GDDR6)│
│ 2020: 936 GB/s (GeForce RTX 3090 GDDR6X) │
│ 2022: 1008 GB/s (GeForce RTX 4090 GDDR6X)│
└─────────────────────────────────────────────┘
架构设计演进
架构设计演进:
┌─────────────────────────────────────────────┐
│ 早期固定功能架构 (1999-2005) │
│ ┌─────────┐ ┌─────────┐ │
│ │ 顶点引擎 │ │ 像素引擎 │ │
│ └─────────┘ └─────────┘ │
│ ┌─────────┐ │
│ │ 纹理单元 │ │
│ └─────────┘ │
└─────────────────────────────────────────────┘
↓
┌─────────────────────────────────────────────┐
│ 统一着色器架构 (2006-2009) │
│ ┌─────────────────────────────────┐ │
│ │ 统一着色器阵列 (SP) │ │
│ │ 所有核心可处理任意任务 │ │
│ └─────────────────────────────────┘ │
│ ┌─────────┐ ┌─────────┐ │
│ │ 纹理单元 │ │ ROP单元 │ │
│ └─────────┘ └─────────┘ │
└─────────────────────────────────────────────┘
↓
┌─────────────────────────────────────────────┐
│ SM架构 (2010-2017) │
│ ┌─────────────────────────────────┐ │
│ │ 流多处理器 (SM) │ │
│ │ - CUDA核心 │ │
│ │ - 共享内存 │ │
│ │ - 纹理缓存 │ │
│ └─────────────────────────────────┘ │
│ ┌─────────┐ ┌─────────┐ │
│ │ L2缓存 │ │ 显存控制器│ │
│ └─────────┘ └─────────┘ │
└─────────────────────────────────────────────┘
↓
┌─────────────────────────────────────────────┐
│ RTX架构 (2018-至今) │
│ ┌─────────────────────────────────┐ │
│ │ 流多处理器 (SM) │ │
│ │ - CUDA核心 │ │
│ │ - RT Core (光线追踪) │ │
│ │ - Tensor Core (AI加速) │ │
│ │ - 共享内存 │ │
│ └─────────────────────────────────┘ │
│ ┌─────────┐ ┌─────────┐ │
│ │ L2缓存 │ │ 显存控制器│ │
│ └─────────┘ └─────────┘ │
└─────────────────────────────────────────────┘
总结
架构演进总结
英伟达GPU架构的演进经历了三个主要阶段:
-
早期图形架构 (1999--2006)
- 从固定功能到统一着色器
- 奠定了CUDA通用计算基础
-
GPGPU与能效优化 (2010--2016)
- 从高性能到高能效
- 为AI和HPC应用奠定基础
-
AI时代与光追革命 (2017至今)
- 从通用计算到专用加速
- Tensor Core和RT Core的引入
- 开启AI和光追新时代
GeForce产品线总结
GeForce产品线的演进反映了市场需求的变化:
- 游戏市场:从3D游戏到4K光追游戏
- 创作者市场:从视频编辑到AI创作
- 技术门槛:从高端专属到主流普及
未来展望
- AI加速:Tensor Core持续优化,支持更低精度计算
- 光追技术:RT Core性能不断提升,实时光追更加普及
- 能效比:制程和架构优化,性能功耗比持续提升
- 应用场景:从游戏扩展到AI、科学计算、数据中心等更多领域
英伟达显卡的发展史,是一部从图形处理到通用计算,再到AI加速的技术演进史。每一次架构的革新,都推动了整个行业的发展,也为我们带来了更好的游戏体验和更强的计算能力。