某款服务器插上4张TDP功耗75瓦PCIE卡无法开机的调试过程

1.服务器厂家说这款服务器测过别家的4卡,所以一开始并没有怀疑服务器硬件有问题

2.拔掉另外三张,只保留cpu0对应的riser0 slot0上的一张卡,仍然无法开机。

3.怀疑是这张pcie卡bar空间太大导致。换另一款bar空间小的卡,仍然无法开机。又尝试插一张普通的显卡还是无法开机。

4.进入BIOS修改相关的配置,做过以下实验,均无效:

强制为gen1,关掉sriov,关掉串口控制台,AES,虚拟化等

5.将卡拔掉,插入其它槽位,可以开机,卡也能识别。换到其它二个槽位,也可识别。目前为止,其它三个槽位均可识别,怀疑这个槽位有问题。

6.服务器厂家再次确认,之前的信息不对。这款服务器没有插过4张卡,只插过2张卡,且为独立供电,也不确认这个槽位是否插过。有问题的槽位在最底部,从散热的角度,并不是最好的位置。如果整机只插2张卡,应该不会是它。

7.从服务器机盖上可以看到有二种riser型号。另一种是有3个x8 slot的,于是让厂家服务器厂家协调这种型号的riser,将卡插在slot1和2上,可以正常开机.目前为止可以识别到4张卡。

8.最后服务器厂家解释:cpu0对应的riser只提供了24个lane。对应二种riser卡型号:x16+x8,3个x8。至于为什么插上无法开机,还没有进一步分析。

相关推荐
zzzzzz3108 天前
9K Star 炸裂开源!这个 C 语言写的代码知识图谱,把 Linux 内核索引压缩到了 3 分钟
linux·服务器·sql
大树8812 天前
金刚石散热越强,管路越先见顶
大数据·运维·服务器·人工智能·ai
小宇宙Zz12 天前
Maven依赖冲突
java·服务器·maven
古城小栈12 天前
Unix 与 Linux 异同小叙
linux·服务器·unix
程序猿阿伟12 天前
《Chrome离线扩展安装的底层逻辑与场景落地指南》
服务器·网络·chrome
凡人叶枫12 天前
Effective C++ 条款42:了解 typename 的双重意义
java·linux·服务器·c++
AC赳赳老秦12 天前
用 OpenClaw 搭建服务器故障应急响应系统,自动处理 80% 常见运维故障
android·运维·服务器·python·rxjava·deepseek·openclaw
java_cj12 天前
深入kube-apiserver认证机制:从Bearer Token到mTLS的完整认证链解析
linux·运维·服务器·云原生·容器·kubernetes
lsyeei12 天前
linux 系统目录详解
linux·运维·服务器
森G12 天前
75、服务器源码解析---------云视频服务项目
linux·服务器·网络·c++·qt