虚拟机VM调用物理机GPU相关问题

虚拟机中部署 AI 大模型问答系统并非不能用物理机的 GPU ，核心取决于虚拟机的虚拟化方案 和GPU 的硬件 / 驱动支持 ，主流的实现方式是GPU 透传（直通） 和GPU 虚拟化共享，前者性能损耗极低，是大模型部署的首选，后者适合多虚拟机轻量共享 GPU 资源。

简单来说：默认的纯软件虚拟机（如未配置的 VMware、VirtualBox）无法调用物理机 GPU，但通过专门的虚拟化配置，能让虚拟机直接 / 间接使用物理机的 GPU 算力，满足大模型的推理 / 训练需求。

一、核心可用方案（按大模型部署优先级排序）

1. GPU 直通（PCIe Passthrough）------ 首选，性能损耗＜5%

将物理机的整块 GPU（或单张 GPU 的核心） 直接 "分配" 给虚拟机，虚拟机拥有 GPU 的完全控制权，和物理机直连 GPU 的性能几乎无差别，完美适配大模型的高算力需求。

支持的虚拟化平台 ：KVM/QEMU（开源首选，如 Proxmox VE）、VMware ESXi（企业级）、Hyper-V（Windows 服务器版）；普通桌面版 VMware Workstation/VirtualBox 仅部分版本支持（需开启专业版功能）。
硬件要求 ：① 物理机 CPU 支持VT-d（Intel） 或AMD-Vi（AMD） （需在 BIOS 中开启）；② 主板支持 PCIe 透传；③ GPU 建议为 NVIDIA Tesla/A10/A100 等专业卡（消费级 NVIDIA 卡需破解NVENC/NVML 限制，AMD 消费级卡无此限制，透传更友好）。
适用场景：单虚拟机部署大模型，需要满额 GPU 算力（如单卡 3090/4090 部署 LLaMA3、Qwen-7B 等模型）。

2. GPU 虚拟化共享（vGPU）------ 多虚拟机共享，企业级为主

通过 GPU 厂商的虚拟化技术，将单张物理 GPU 切分成多个虚拟 GPU（vGPU），分配给不同虚拟机，每个虚拟机拥有独立的 GPU 算力切片，性能损耗约 10%-20%。

主流方案：NVIDIA vGPU（需 Tesla/A10/A100 等专业卡 + 企业级授权）、AMD MxGPU（支持部分专业卡 / 消费级卡）；
支持平台：KVM/QEMU、VMware ESXi、Citrix XenServer；
适用场景：多台虚拟机轻量部署大模型（如多个问答系统共享一张 A100，单模型低负载推理）。

3. 远程 GPU 调用（间接方案）------ 轻量化适配，无需复杂虚拟化

物理机部署GPU 算力服务端 （如 NVIDIA Triton、Ray、FastAPI 封装的 GPU 接口），虚拟机作为客户端通过网络调用物理机的 GPU 算力，无需对虚拟机做硬件透传配置。

优势：配置简单，跨平台（Windows/Linux 虚拟机均可）；
劣势：受网络带宽 / 延迟影响（本地局域网损耗可忽略，远程网络不适用），适合轻量推理（如 7B 模型量化后）；
适用场景：快速测试，不想做复杂的虚拟化 GPU 配置。

二、无法使用 GPU 的常见情况

用普通桌面版虚拟机（如 VMware Workstation 免费版、VirtualBox），未开启 VT-d/AMD-Vi，也未配置 GPU 透传；
物理机CPU / 主板不支持 PCIe 透传（老款入门级硬件居多）；
仅安装了虚拟机的显卡驱动（如 VMware SVGA、VirtualBox VMSVGA），未安装物理机 GPU 的原生驱动（如 NVIDIA CUDA 驱动、AMD ROCm 驱动）；
消费级 NVIDIA 卡未破解，直接尝试透传（会出现 "代码 43" 错误，无法识别 GPU）。

三、大模型部署的最优实操建议（兼顾简单和性能）

如果是个人 / 小团队部署，优先选择 **「KVM/QEMU + GPU 直通」** 方案，步骤核心如下（Linux 物理机为例）：

进入物理机 BIOS，开启VT-x/AMD-V （CPU 虚拟化）和VT-d/AMD-Vi（PCIe 透传）；
安装 KVM/QEMU 虚拟化平台（如 Proxmox VE，一键安装，可视化管理）；
创建虚拟机时，将物理机 GPU 的PCIe 设备直接添加到虚拟机中；
启动虚拟机，安装对应 GPU 的原生驱动（NVIDIA 装 CUDA Toolkit，AMD 装 ROCm）；
验证 GPU 可用性：nvidia-smi（NVIDIA）/rocm-smi（AMD），能识别显卡即配置成功，后续正常部署大模型即可。

四、补充：消费级显卡的透传小技巧

如果用的是NVIDIA 消费级卡（如 3090、4090），透传时会触发 "代码 43" 限制，解决方法很简单：

KVM/QEMU：在虚拟机配置中添加显卡隐藏参数 （vendor_id=10de、hide_vga=1），屏蔽虚拟机检测；
VMware Workstation：修改虚拟机配置文件，添加hypervisor.cpuid.v0 = "FALSE"，重启虚拟机即可。AMD 消费级卡无此限制，直接透传即可。

总结：虚拟机并非 GPU 的 "禁区"，只是需要针对性的虚拟化配置，GPU 直通是大模型部署的最优解，性能和物理机几乎一致，也是工业界虚拟化部署 AI 模型的主流方式。