Experimental Analysis of Dedicated GPU in Virtual Framework using vGPU 论文分析

年份:2021

作者:Amrapali Shivajirao Chavan

会议:ESCI

出版商:IEEE

摘要

虚拟化GPU对云计算有很大的帮助,通过实验分析工作负载,多任务和不同GPU配置的情况下,从vGPU配置和调度算法方面提高了vGPU的效率和利用率,减少了执行时间。此外vGPU相当于PCI直连的GPU性能开销要大。

介绍

1.云服务商通过在网络层向客户提供虚拟GPU服务,实现了高效资源管理和分配,解除了传统硬件资源分配的限制。

2.vGPU改变了传统虚拟化(vCPU)的局限,使得GPU不仅能够用于图形处理,还可以参与混合计算和加速GPGPU应用,提升了虚拟化环境中的用户体验。这一技术突破使GPU虚拟化得以应用于桌面虚拟化、云游戏和计算科学等多个领域。

3.英伟达的vGPU技术使得GPU可以在虚拟机之间共享,打破了传统上由CPU处理所有任务的方式。与早期由CPU负责处理的虚拟化不同,vGPU通过虚拟工作区框架(VDI)来分配和管理GPU资源,从而提升了应用和工作负载的性能,尤其在3D应用、视频和图像渲染等并行计算任务中表现突出。

4.GPU的并行处理能力加速了计算机的计算(尤其是图像处理程序),特别是在具有多个核心的情况下,几乎没有延迟。此外,英伟达的vGPU技术通过将实际GPU虚拟化为多个虚拟GPU,支持虚拟机之间的一对多共享,从而加快了工作区和工作站的性能。该技术通过将工作负载从CPU卸载到GPU,显著提升了用户体验,并能支持更多的用户。

相关研究

这些研究大多集中在专用GPU(baremetal GPU)上,主要关注测试GPU的负载性能,并且多是在不涉及虚拟化的环境下进行的。例如,它们比较了不同的GPU执行环境、GPU计算框架、和不同的基准测试工具的表现。但这些研究并未涉及虚拟GPU(vGPU)技术,而是专注于传统的专用GPU性能。此外,虽然一些研究涉及了多GPU配置和任务执行,但并没有在虚拟化背景下进行详细的实验分析。因此,它们的结果不适用于虚拟GPU环境中的多任务或多虚拟机执行。

建议的系统架构

1.GPU虚拟化在云计算和高性能计算(HPC)中具有重要意义。通过PCI直通等虚拟化方式,GPU支持的虚拟机能够弥合IaaS和HPC之间的性能差异,从而改善IaaS在一些应用中的局限性,并使其更加适用于云计算和高性能计算工作负载。提出了目标:研究虚拟GPU在虚拟化开销下的多路复用和弹性分配。

2.提出需要研究vGPU的配置变量、数量、参数排列等因素,这些因素对虚拟化环境中的性能和资源分配有着重要影响,尤其是在多虚拟机共享GPU资源时,这些配置直接影响到系统的效率、响应时间和任务调度的效果

提出PCI直通(一对一):在user space中确定要进行直通的PCI设备,指令从user space传递到环境KVM virtual层,V M thread和VMSTART thread收到指令后,协调虚拟机对直通设备的访问,最后将PCI设备映射到虚拟机的地址空间,实现访问

研究方法

使用一系列高负载任务来得出GPU的常规利用率,以描述虚拟效果(PCI直通和VGPU)。

结果和讨论

对应7

测试1:下三角和上三角分解计算算法,解决线性方程

测试2:粒子追踪确定物体位置

LavaMD的仿真:模拟的是一个大型三维数组中的原子之间的相互作用

Gaussian切割:高斯终止计算,用于测试1

A. 工作负载概述

对所述工作负载进行了内存分配、GPU使用和运行时间的测试,测试环境是安装了VMware的虚拟机,采用PCI直通配置GPU。测试结果显示不同任务负载在GPU利用率、内存使用率等方面的差异,详见表格。

实验评估

在实验中,我们对比了PCI直通和单个vGPU配置在可用存储、CPU使用率以及数据传输延迟率方面的表现。结果显示:

  1. 可用存储:在PCI直通模式下,GPU的可用存储接近满负荷,而在单个vGPU组中,约有7%的存储未被使用。这一部分存储的闲置可能与vGPU驱动自身的内存需求有关。

  2. CPU使用率:相比于vGPU组,PCI直通模式的CPU使用率较高,表明其在资源利用效率方面表现更好。

  3. 数据传输延迟:两者在数据传输延迟率上差异不大,几乎相当。进一步的优化研究可以通过安装合适的核心硬件驱动程序来更精细地分析这一延迟差异。

整体来看,PCI直通模式在性能上略优,但vGPU也展示了较为接近的表现,为虚拟化场景提供了另一种灵活配置。

B.工作负载执行

在工作负载执行方面,16个vGPU和PCI直通在不同工作负载下的时间消耗差异不大,但由于虚拟化引入的开销,vGPU模式的时间消耗略高于PCI直通模式。

C.设备辅助vGPU的限制

vGPU在灵活性和资源管理方面提供了便利,但也存在一定的性能损失和配置灵活性的限制。适合于一般的虚拟化需求,但在需要更高性能和定制化配置的场景中,可能仍然不如PCI直通模式。

总结

这篇论文并没有像所说的对算法进行改进,更多的是在对比vGPU和PCI直通,得出的结果是PCI直通各个方面都要更优一些,但是这些测试基准应该认真了解,对于以后的vGPU算力调度做测试的时候很有帮助。

相关推荐
ChoSeitaku17 分钟前
链表循环及差集相关算法题|判断循环双链表是否对称|两循环单链表合并成循环链表|使双向循环链表有序|单循环链表改双向循环链表|两链表的差集(C)
c语言·算法·链表
Fuxiao___26 分钟前
不使用递归的决策树生成算法
算法
我爱工作&工作love我31 分钟前
1435:【例题3】曲线 一本通 代替三分
c++·算法
白-胖-子1 小时前
【蓝桥等考C++真题】蓝桥杯等级考试C++组第13级L13真题原题(含答案)-统计数字
开发语言·c++·算法·蓝桥杯·等考·13级
workflower1 小时前
数据结构练习题和答案
数据结构·算法·链表·线性回归
好睡凯1 小时前
c++写一个死锁并且自己解锁
开发语言·c++·算法
Sunyanhui11 小时前
力扣 二叉树的直径-543
算法·leetcode·职场和发展
一个不喜欢and不会代码的码农1 小时前
力扣105:从先序和中序序列构造二叉树
数据结构·算法·leetcode
前端郭德纲2 小时前
浏览器是加载ES6模块的?
javascript·算法
SoraLuna2 小时前
「Mac玩转仓颉内测版10」PTA刷题篇1 - L1-001 Hello World
算法·macos·cangjie