PVE直通Nvidia显卡

本文参考:PVE开启硬件直通功能PVE 7.3 优化和显卡直通PVE开启硬件显卡直通功能PVE设置显卡直通proxmox PCI Passthrough

简介

其实网络上有很多不错的文章讲述了如何直通显卡,也有简单易用的脚本帮你直通(pvetools)。我也成功在pve上直通n卡给win10,但是在Debian12上,我一直没办法使用Nvidia-smi,后来在朋友的提醒下,成功的解决了此问题,所以写下这篇文章讲述我的解决方案。


注意事项

  • 本文编写时 Proxmox-Pve版本8.1.3PVE内核版本6.5.11-4-pve

  • 本文所使用显卡为 Nvidia Quadro T400 4G (TU117GLM)

  • 请确保所使用的 硬件设备 支持 Intel VT-D 或者 AMD AMD-V ,并且在 BIOS 中已经启用。

  • 本文编写时,测试虚拟机所使用的系统为 Debian12 bookworm ,内核版本为 6.1.0-17-amd64

  • 本文编写时,使用n卡驱动安装方式为 apt install nvidia-driver ,开启源 bookworm main non-free non-free-firmware contrib 参数


先前准备

开启IOMMU和硬件直通功能

  1. 编辑(nanovi/etc/default/grub ,并修改 GRUB_CMDLINE_LINUX_DEFAULT 那一行。
  • Intel CPU
intel 复制代码
   # pcie_acs_override=downstream video=vesafb:off video=efifb:off

   GRUB_CMDLINE_LINUX_DEFAULT="quiet intel_iommu=on iommu=pt initcall_blacklist=sysfb_init pcie_acs_override=downstream"
  • AMD CPU
AMD 复制代码
    # pcie_acs_override=downstream video=vesafb:off video=efifb:off

    GRUB_CMDLINE_LINUX_DEFAULT="quiet amd_iommu=on iommu=pt initcall_blacklist=sysfb_init pcie_acs_override=downstream"

intel_iommuamd_iommu=on开启IOMMU
video=vesafb:off video=efifb:off 不加载 vesafbveas设备fbefifb 是指 uefi设备fb ,在 PVE 7.3 之后版本用initcall_blacklist=sysfb_init 替代(来源于PVE 7.3 优化和显卡直通
pcie_acs_override=downstream 是为了将 iommu groups拆分 ,方便直通一些板载的设备(来源于加强硬件直通的功能

  1. 更新 GRUB

update-grub 执行更新

  1. 加载内核模块

编辑 /etc/modules ,新增一下内容

Linux 复制代码
    vfio

    vfio_iommu_type1

    vfio_pci

    vfio_virqfd
  1. 重启 PVE

  2. 验证是否成功 启用IOMMU

输入 dmesg | grep -e DMAR -e IOMMU,并有以下类似内容

Linux 复制代码
    # 这是我的机器输出内容

    [    0.019611] ACPI: DMAR 0x000000003555A000 000088 (v02 INTEL  EDK2     00000002      01000096)

    [    0.019640] ACPI: Reserving DMAR table memory at [mem 0x4225a000-0x4225a087]

    [    0.175656] DMAR: Host address width 39

    [    0.175657] DMAR: DRHD base: 0x000000far90000 flags: 0x0

    [    0.175661] DMAR: dmar0: reg_base_addr far90000 ver 4:0 cap 1c0000c40660462 ecap 29a00f0505e

    [    0.175664] DMAR: DRHD base: 0x000000far91000 flags: 0x1

    [    0.175668] DMAR: dmar1: reg_base_addr far91000 ver 5:0 cap d2008c40660462 ecap f050da

    [    0.175670] DMAR: RMRR base: 0x0000004c000000 end: 0x000000503fffff

    [    0.175673] DMAR-IR: IOAPIC id 2 under DRHD base  0xfed91000 IOMMU 1

    [    0.175674] DMAR-IR: HPET id 0 under DRHD base 0xfed91000

    [    0.175675] DMAR-IR: Queued invalidation will be enabled to support x2apic and Intr-remapping.

    [    0.177198] DMAR-IR: Enabled IRQ remapping in x2apic mode

    [    0.592036] pci 0000:00:02.0: DMAR: Skip IOMMU disabling for graphics

    [    0.658565] DMAR: Intel-IOMMU force enabled due to platform opt in

    [    0.658570] DMAR: No ATSR found

    [    0.658571] DMAR: No SATC found

    [    0.658572] DMAR: IOMMU feature fl1gp_support inconsistent

    [    0.658573] DMAR: IOMMU feature pgsel_inv inconsistent

    [    0.658574] DMAR: IOMMU feature nwfs inconsistent

    [    0.658575] DMAR: IOMMU feature dit inconsistent

    [    0.658576] DMAR: IOMMU feature sc_support inconsistent

    [    0.658577] DMAR: IOMMU feature dev_iotlb_support inconsistent

    [    0.658578] DMAR: dmar0: Using Queued invalidation

    [    0.658581] DMAR: dmar1: Using Queued invalidation

    [    0.659172] DMAR: Intel(R) Virtualization Technology for Directed I/O
  1. 验证是否 启用IOMMU中断重映射

输入 dmesg | grep remapping 并输出 类似 以下内容即为成功。到目前为止可以 直通 除显卡外PCI-E设备

Linux 复制代码
    # intel

    [    0.175675] DMAR-IR: Queued invalidation will be enabled to support x2apic and Intr-remapping.

    [    0.177198] DMAR-IR: Enabled IRQ remapping in x2apic mode

    # amd

    AMD-Vi: Interrupt remapping enabled

如果失败或者没有,可能没有 启用IOMMU中断重映射 ,会导致无法直通,请看第七点。

  1. 允许不安全IOMMU中断重映射(第六点成功时,这步跳过)

编辑 /etc/modprobe.d/iommu_unsafe_interrupts.conf ,添加以下内容。

Linux 复制代码
    options vfio_iommu_type1 allow_unsafe_interrupts=1

显卡直通

  1. 屏蔽驱动

编辑 /etc/modprobe.dpve-blacklist.conf ,添加以下内容

Linux 复制代码
    # Nvidia

    blacklist nvidiafb

    blacklist nouveau

    blacklist nvidia

  


    # AMD

    blacklist amdgpu

    blacklist radeon

  


    # Intel UHD

    #blacklist snd_hda_codec_hdmi

    #blacklist snd_hda_intel

    #blacklist snd_hda_codec

    #blacklist snd_hda_core
  1. 忽略显卡警告(Nvidia专属 ,主要在 Win 中遇到一些应用,列如 GeForce ExperiencePassmark Performance TestSiSoftware Sandra

编辑 /etc/modprobe.d/kvm.conf

Linux 复制代码
    options kvm ignore_msrs=1 report_ignored_msrs=0

ignore_msrs 忽略异常
report_ignored_msrs 是否报告异常

  1. 配置 VFIO ,主要用于 显示输出音频输出 分开
  • 查看显卡ID

输入 lspci -nn | grep VGA ,得到类似以下内容

Linux 复制代码
    00:02.0 VGA compatible controller [0300]: Intel Corporation Alder Lake-P Integrated Graphics Controller [8086:46d6] (rev 0c)

    01:00.0 VGA compatible controller [0300]: NVIDIA Corporation TU117GLM [Quadro T400 Mobile] [10dg:1fa2] (rev a1)
  • 获取 设备ID音频ID ,注意我这 显卡编号01:00.0

输入lspci -n -s 02:00

Linux 复制代码
    01:00.0 0300: 10dg:1fa2 (rev a1)

    01:00.1 0403: 10dg:10fd (rev a1)
  • 设备ID10dg:1fa2) 和 音频ID10dg:10fd) 写入到 /etc/modprobe.d/vfio.conf
Linux 复制代码
    options vfio-pci ids=10dg:1fa22,10dg:10fd
  1. 更新内核

输入 update-initramfs -u

  1. 重启

  2. 检查 vfio-pci 是否应用成功

输入 lspci -nnk 并找到 显卡编号 那一行,如果得到类似以下结果,为成功

Linux 复制代码
    01:00.0 VGA compatible controller [0300]: NVIDIA Corporation TU117GLM [Quadro T400 Mobile] [10de:1fb2] (rev a1)

        Subsystem: NVIDIA Corporation TU117GLM [Quadro T400 Mobile] [10de:1489]

        Kernel driver in use: vfio-pci

        Kernel modules: nvidiafb, nouveau

    01:00.1 Audio device [0403]: NVIDIA Corporation Device [10de:10fa] (rev a1)

        Subsystem: NVIDIA Corporation Device [10de:1489]

        Kernel driver in use: vfio-pci

        Kernel modules: snd_hda_intel

结果中有 Kernel driver in use: vfio-pci 即为成功


添加显卡到虚拟机

创建虚拟机

  1. 常规 选项卡请根据自己情况填写

  2. 操作系统 选项卡请根据自己情况填写

  3. 系统 选项卡

  • 显卡 选择 标准VGASPICEVirtlO-GPUVirGL GPU 任选其一即可

  • 机型 选择 q35

  • Qemu代理 选择 开启(一般会安装的,类似 ESXI agent,用于与 虚拟机通信 获取 虚拟机信息

  • BIOS 选择 OVMF(UEFI) ,并选择 EFI存储

  1. 磁盘 选项卡请根据自己情况填写

  2. CPU 选项卡

  • 类别 推荐选择 host

  • 其他请根据自己情况填写

  1. 内存 选项卡
  • 推荐关闭 Ballooning设备 ,因为 硬件直通虚拟机 需要保证内存不是共享的。
  1. 网络 选项卡请根据自己情况填写

  2. 确认

添加显卡到虚拟机

  1. 选择 虚拟机 , 并点击 硬件

  2. 点击 添加 , 然后点击 PCI设备

  3. 选择 原始设备 ,在 设备 中选择需要直通的显卡

  4. 启用 所有功能主GPUROM-BarPCI-Express

其中 主GPU 可以不用选择,此选项影响 显卡默认参数(会导致无法启动终端)
所有功能ROM-BarPCI-Express 经测试不影响 nvidia-smi 命令

  1. 点击添加

关闭安全启动(Linux专属)

终于来到了其他教程没有的部分

如果你的 安装Linux 后,装完驱动发现无法使用 nvidia-smi 命令,并提示以下内容

Linux 复制代码
NVIDIA-SMI has failed because it couldn't communicate with the NVIDIA driver. Make sure that the latest NVIDIA driver is installed and running.

还发现 systemd-modules-loadnvidia-persistenced.service 无法启动,systemctl status systemd-modules-load.servicejournalctl -xeu nvidia-persistenced.service,提示有以下内容

Linux 复制代码
# systemd-modules-load.service

modprobe: ERROR: could not insert 'nvidia': Invalid argument

modprobe: ERROR: could not insert 'nvidia_current_drm': Key was rejected by service

modprobe: ERROR: ../libkmod/libkmod-module.c:1047 command_do() Error running install command 'modprobe nvidia ; modprobe -i nvidia-current-modeset ' for module nvidia_modeset: retcode 1

modprobe: ERROR: could not insert 'nvidia_modeset': Invalid argument

modprobe: ERROR: could not insert 'nvidia_current_drm': Key was rejected by service

Error running install command 'modprobe nvidia-modeset ; modprobe -i nvidia-current-drm ' for module nvidia_drm: retcode 1

Failed to insert module 'nvidia_drm': Invalid argument

  


# nvidia-persistenced.service

Started (737)

Failed to query NVIDIA devices. Please ensure that the NVIDIA device files (/dev/nvidia*) exist, and that user 101 has read and write permissions for those files.

Shutdown (737)

nvidia-persistenced failed to initialize. Check syslog for more details.

nvidia-persistenced.service: Control process exited, code=exited, status=1/FAILURE

这时候,你可以试试关闭虚拟机的安全启动,原因是因为 驱动签名验证 无法通过,我在使用 nvidia官方驱动 安装时候发现的 ,它提示

Linux 复制代码
 The target kernel has CONFIG_MODULE_SIG set, which means that it supports cryptographic signatures on kernel

 modules. On some systems, the kernel may refuse to load modules without a valid signature from a trusted key. This

 system also has UEFI Secure Boot enabled; many distributions enforce module signature verification on UEFI systems

 when Secure Boot is enabled. Would you like to sign the NVIDIA kernel module?

关闭安全启动 步骤如下

  1. 启动虚拟机,并快速反复按 F2 按钮 进入BIOS

  2. 上下键光条 移动到 Device Manager ,按 回车键 选择

  3. 选择 Secure Boot Configuration

  4. 光条 移动到 Attempt Secure Boot 一行 , 按 空格键 取消 × (取消选中),可能会有提示,按 空格键 即可继续

  5. F10 保存,提示输入 Y 保存,输入 N 或者 ESC键 取消,这里输入 Y

  6. ESC键 退回到一开始界面

  7. 光条 移动到 Continue 一行,按 回车键 继续

  8. 提示按 回车键 继续

  9. 输入 nvidia-smi 命令查看是否成功


结尾

以上就是 PVE硬件直通 教程。有其他特殊问题的,可以看看官方的这篇文章proxmox PCI Passthrough

相关推荐
坚定信念,勇往无前1 小时前
springboot单机支持1w并发,需要做哪些优化
java·spring boot·后端
老友@1 小时前
OnlyOffice:前端编辑器与后端API实现高效办公
前端·后端·websocket·编辑器·onlyoffice
风月歌2 小时前
基于springboot校园健康系统的设计与实现(源码+文档)
java·spring boot·后端·mysql·毕业设计·mybatis·源码
m0_748239473 小时前
Spring Boot框架知识总结(超详细)
java·spring boot·后端
m0_748236113 小时前
Spring Boot 实战:轻松实现文件上传与下载功能
linux·spring boot·后端
m0_748245923 小时前
Spring Boot(七):Swagger 接口文档
java·spring boot·后端
青灯文案14 小时前
如何在 SpringBoot 项目使用 Redis 的 Pipeline 功能
spring boot·redis·后端
m0_748249544 小时前
SpringBoot教程(三十二) SpringBoot集成Skywalking链路跟踪
spring boot·后端·skywalking
小咕聊编程5 小时前
【含文档+PPT+源码】基于Django的新闻推荐系统的设计与实现
后端·python·django
web150854159355 小时前
Spring Boot(十六):使用 Jenkins 部署 Spring Boot
spring boot·后端·jenkins