1.服务器厂家说这款服务器测过别家的4卡,所以一开始并没有怀疑服务器硬件有问题
2.拔掉另外三张,只保留cpu0对应的riser0 slot0上的一张卡,仍然无法开机。
3.怀疑是这张pcie卡bar空间太大导致。换另一款bar空间小的卡,仍然无法开机。又尝试插一张普通的显卡还是无法开机。
4.进入BIOS修改相关的配置,做过以下实验,均无效:
强制为gen1,关掉sriov,关掉串口控制台,AES,虚拟化等
5.将卡拔掉,插入其它槽位,可以开机,卡也能识别。换到其它二个槽位,也可识别。目前为止,其它三个槽位均可识别,怀疑这个槽位有问题。
6.服务器厂家再次确认,之前的信息不对。这款服务器没有插过4张卡,只插过2张卡,且为独立供电,也不确认这个槽位是否插过。有问题的槽位在最底部,从散热的角度,并不是最好的位置。如果整机只插2张卡,应该不会是它。
7.从服务器机盖上可以看到有二种riser型号。另一种是有3个x8 slot的,于是让厂家服务器厂家协调这种型号的riser,将卡插在slot1和2上,可以正常开机.目前为止可以识别到4张卡。
8.最后服务器厂家解释:cpu0对应的riser只提供了24个lane。对应二种riser卡型号:x16+x8,3个x8。至于为什么插上无法开机,还没有进一步分析。