面向科研狗的服务器运维——服务器搭建维护到排障

系列文章目录

写在前面:某高校的苦逼计算机博士生。因为之前在高性能计算国家重点实验室做工程师,也负责了当时的超算节点的部分运维工作,所以现在也承担了组里的服务器运维工作。


文章目录


前言

提示:这里可以添加本文要记录的大概内容:

例如:随着人工智能的不断发展,机器学习这门技术也越来越重要,很多人都开启了学习机器学习,本文就介绍了机器学习的基础内容。


提示:以下是本篇文章正文内容,下面案例可供参考

一、服务器选型

这里就不赘述了,根据实验室资金选就好了。如果资金有限可以根据如下做考虑:

一)类型

这里指外观类型,和实验室占地有关。具体可以参考以下表格。另外简单来说:如果机器放在实验室,建议使用塔式服务器 且风扇要选静音的!如果是在机房,有多个服务器要放置,建议直接配好机架 ,并根据机架选择4U(更强大兼容更强)或者2U机架式 。如果做CPU任务或者网络任务,没有过多的GPU需求建议刀片式,CPU节点要求多,直接定制HPC Cluster吧,我之前工作时管理的就是400个Nodes集群,都是半裸式的!

服务器类型 特点 适用场景
塔式服务器 易于安装,扩展性强 小型企业及家庭使用
机架式服务器 适合密集部署,空间利用高 数据中心及企业环境
刀片服务器 高密度、高性能 大型企业及云计算环境
高性能计算(HPC) 提供极高计算能力 科研、模拟与建模任务

二)配件

|-----|------------------------------------------------------------------------------------------------------------------------------------------------------------------------|
| CPU | 塔式:一般都是单核(只带4个以内的GPU),富哥直接 机架式: HPC集群:看供应商怎么给你配吧,越强越好,有钱直接双i9,单核性能拉满。一般用风冷 |
| GPU | 任务:看你是什么任务,一般机器学习就RTX就行,目前3090性价比最高,富哥选4090,穷的话2080Ti,一定要显存24GB的!大模型或者大参数量任务就选显存高的,进阶A40<A6000(40GB),有钱就A100,H100,富哥组用A800,H800 塔式:一般智能2-4块 机架式:4U能装8块 HPC集群:胖节点应该是2块 |
| RAM | ECC(一般服务器都带)一般4卡以下64GB(32GB双通道),4卡用128GB以上(32X4多通道),8卡用256GB以上,主频3200以上 |
| 硬盘 | 主要看内槽位和外槽位,内槽位主要装固态 |
| 主板 | 这个没有太多能选的,看供应商。一般华硕够用了,有钱点选服务器板子,富哥选H3C |
| 电源 | 塔式: 机架式 HPC集群: |

三)进阶:路由与组网

(未完待续,先发出来占位,会一直更新的)

二、服务器配置

三、运维常见故障

四、Tricks

总结

以上所有内容是根据自己在实验室经验

相关推荐
qwy7152292581633 小时前
13-R数据重塑
服务器·数据库·r语言
anddddoooo6 小时前
域内证书维权
服务器·网络·网络协议·安全·网络安全·https·ssl
zhoupenghui1686 小时前
golang时间相关函数总结
服务器·前端·golang·time
努力的小T7 小时前
使用 Docker 部署 Apache Spark 集群教程
linux·运维·服务器·docker·容器·spark·云计算
不修×蝙蝠7 小时前
HTTP 协议(Ⅲ)
服务器·http·javaee·http协议
梨落秋溪、8 小时前
输入框元素覆盖冲突
java·服务器·前端
枫叶落雨2228 小时前
08-Elasticsearch
运维·jenkins
猫猫的小茶馆8 小时前
【网络编程】UDP协议
linux·服务器·网络·网络协议·ubuntu·udp
鱼嘻8 小时前
Linux自学day23-进程和线程
linux·服务器·c语言·进程和线程
爆更小小刘9 小时前
Linux下基本指令(4)
linux·运维·服务器