Lenovo ThinkSystemSR650安装Nvidia GPU在VMware下的vGPU 资源/License能自动回收利用吗?
答案是肯定的.........跟着LAB往下走,小心掉队啦......
硬件环境
服务器UEFI(BIOS)为Default出厂设置
CPU:Intel(R) Xeon(R) Gold 6248 CPU @ 2.50GHzx2
内存:SK HynixHMA82GR7CJR8N-VK 16G DDR4 x12
RAID卡:ThinkSystem
RAID 930-24i 4GB Flash 12Gb x1
磁盘:600GB HDD x1(os用于安装esxi)
960G SSDx4(datastore存放虚拟机)
GPU:Nvidia Tesla T4 GPU x1
电源:1600W PSU x2
网卡:Intel I350-T4 x1
ESXi7.0U2 Lenovo ThinkSystem OEM镜像 VMware_ESXi_7.0.2_17867351_LNV_20210717.iso
ESXi7.0U2e补丁包解决ESXi下无法启用GPU驱动问题
VMware-ESXi-7.0U2e-19290878-depot.zip
VM 系统 Windows10专业版
Nvidia vGPU软件 V14.0
License server
注意需安装JRE jre-8u351-windows-i586.exe
Nvidia License Server
SR650服务器XCC 172.20.21.165
ESXi 192.168.234.1
vCenter Server 192.168.234.3
License server
http://192.168.234.2:8080/licserver/manageFeatureUsage_view.action?page=1
3台windows10测试虚拟机
192.168.234.11
192.168.234.12
192.168.234.13
-
1.服务器硬件设置(RAID设置等等)
-
2.ESXi安装
-
3.ESXi安装补丁软件包
-
4.登录ESXi web控制台
主机---管理硬件---PCI设备 选中Nvidia T4 GPU后点上方的配置SR-IOV
- 15.vCenter web管理界面,选中主机
配置---图形---选中Tesla T4后点上方的编辑
- 16.将3台测试虚拟机关机,添加pci设备
https://docs.nvidia.com/grid/10.0/grid-vgpu-user-guide/index.html
比如上图高亮显示的grid_t4-8q这种类型,每个物理GPU T4最多可以虚拟2个vGPU,配合前面的2个vWS license,刚好符合我们用3台虚拟机测试GPU资源和license自动回收、自动分配的要求 图片
-
17.将3台测试虚拟机依次执行如下操作(依次主要是本测试所选的vGPU类型和license只能支持2个vGPU实例同时在线)
-
17.1开机
-
17.2启用远程桌面(因为安装vGPU驱动后,VMware的控制台就是
-
黑屏了, 要通过远程桌面或者Horizon客户端访问)
-
17.3安装vGPU驱动后根据提示重启
-
17.4通过远程桌面访问虚拟机,右键点击桌面,选菜单中的nvidia
-
控制面板,配置许可证服务器和端口(端口默认为7070)
3台vGPU虚拟机都处于关机状态,可用的vGPU License数量为2
虚拟机1自动获取到license,license server上的可用许可被减去1个,由2变成了1
虚拟机2自动获取到license,license server上的可用许可再次被减去1个,
4.开启测试虚拟 机3,vGPU资源不足无法正常开机
此时开启第3台虚拟机,因为vGPU资源不足,会报错
将先前开机的虚拟机1关机,观察到它所占用的license被自动回收,
license server 中又有1个可用的license了
6. 再次开启虚拟机3,随着License启用正常开机
再次尝试将虚拟机3开机,可以正常开机,说明前面虚拟机1的
虚拟机3开机后自动从license server分配到了1个license,
license server上的可用license数量变为0。
vGPU资源和license随着原使用的虚拟机关闭相应的使用中的
license也得到释放自动回收,可供其他虚拟机使用,
完美切换虚拟机之间vGPU license自由使用。
更多技术文档请访问365文档