GPU架构学习图形处理单元(Graphics Processing Unit,GPU)自诞生以来,已从专注于图形渲染的专用硬件演变为支撑现代计算科学、人工智能、科学仿真乃至区块链等多元领域的通用并行计算引擎。其核心架构设计理念——以大规模并行性换取高吞吐量——与传统中央处理单元(CPU)的低延迟串行执行路线形成了鲜明对比。本文将系统、深入地剖析GPU的架构演进历程、核心组成部件、内存层次结构、执行模型、调度机制以及现代GPU在AI与高性能计算(HPC)领域的前沿扩展,旨在为读者提供一份兼具理论深度与工程实践价值的综合性