AI编程：一个案例对比CPU和GPU在深度学习方面的性能差异

背景

字节跳动正式发布中国首个AI原生集成开发环境工具（AI IDE）------AI编程工具Trae国内版。 该工具模型搭载doubao-1.5-pro，支持切换满血版DeepSeek R1&V3，可以帮助各阶段开发者与AI流畅协作，更快、更高质量地完成编程工作，提升开发效率。

安装试用后，效果确实不错，无论是编程还是开发环境的自动化构建，都能实现较高程度的自动化。

本文演示了一个实际编程案例，在一台配备Intel CPU和集成显卡的个人PC上，对比GPU/CPU在一些耗时运算方面的性能差异，并通过图表展示对比结果。涉及基本的神经网络模型编程，如python环境配置、矩阵运算、前向传播、反向传播，基于Intel集成显卡GPU的开发环境配置等。

本机是 i7-1260P + Iris Xe + 16G内存，请编写程序，对比一下使用CPU和GPU进行某些深度学习运算的性能差异。

只需根几秒的时间， trae就已经完成了代码编写 gpu_cpu_benchmark.py，并输出了python环境依赖库清单requirements.txt

requirements.txt如下图所示，当然，依赖文件并不是一步到位直接生成的。而是经历了多个版本的叠代。

比如，一开始trae推荐的是以下版本的torch

复制代码

pip install torch==2.3.0 torchvision==0.18.0 intel-extension-for-pytorch==2.3.0 memory-profiler==0.61

但是因版本匹配问题失败，因此， trace又调整了软件包版本。

包括在使用intel集成显卡的时候与Nvidia GPU编程不同， trae提示：

检测到PyTorch安装需要额外源地址，现在添加Intel官方源重新安装依赖。

复制代码

pip install -r requirements.txt --extra-index-url https://pytorch-extension.intel.com/release-whl/stable/xpu/us/

测评程序分别使用cpu、XPU(即intel的集成显卡)进行矩阵运算、前向传播、反向传播等方面的运算。

GPU满负荷工作：

评测程序最终自动输出了评测结果，如下图所示。结果表明，这台集成显卡的GPU性能实在一般，只有矩阵运算比CPU强，其他方面如前向传播、反向传播和内存使用，都比CPU要弱。后续有机会换个显卡再试。

这台集成显卡的GPU性能实在一般，只有矩阵运算比CPU强，其他方面如前向传播、反向传播和内存使用，都比CPU要弱。后续有机会换个显卡再试。