面向科研狗的服务器运维——服务器搭建维护到排障

系列文章目录

写在前面:某高校的苦逼计算机博士生。因为之前在高性能计算国家重点实验室做工程师,也负责了当时的超算节点的部分运维工作,所以现在也承担了组里的服务器运维工作。


文章目录


前言

提示:这里可以添加本文要记录的大概内容:

例如:随着人工智能的不断发展,机器学习这门技术也越来越重要,很多人都开启了学习机器学习,本文就介绍了机器学习的基础内容。


提示:以下是本篇文章正文内容,下面案例可供参考

一、服务器选型

这里就不赘述了,根据实验室资金选就好了。如果资金有限可以根据如下做考虑:

一)类型

这里指外观类型,和实验室占地有关。具体可以参考以下表格。另外简单来说:如果机器放在实验室,建议使用塔式服务器 且风扇要选静音的!如果是在机房,有多个服务器要放置,建议直接配好机架 ,并根据机架选择4U(更强大兼容更强)或者2U机架式 。如果做CPU任务或者网络任务,没有过多的GPU需求建议刀片式,CPU节点要求多,直接定制HPC Cluster吧,我之前工作时管理的就是400个Nodes集群,都是半裸式的!

服务器类型 特点 适用场景
塔式服务器 易于安装,扩展性强 小型企业及家庭使用
机架式服务器 适合密集部署,空间利用高 数据中心及企业环境
刀片服务器 高密度、高性能 大型企业及云计算环境
高性能计算(HPC) 提供极高计算能力 科研、模拟与建模任务

二)配件

|-----|------------------------------------------------------------------------------------------------------------------------------------------------------------------------|
| CPU | 塔式:一般都是单核(只带4个以内的GPU),富哥直接 机架式: HPC集群:看供应商怎么给你配吧,越强越好,有钱直接双i9,单核性能拉满。一般用风冷 |
| GPU | 任务:看你是什么任务,一般机器学习就RTX就行,目前3090性价比最高,富哥选4090,穷的话2080Ti,一定要显存24GB的!大模型或者大参数量任务就选显存高的,进阶A40<A6000(40GB),有钱就A100,H100,富哥组用A800,H800 塔式:一般智能2-4块 机架式:4U能装8块 HPC集群:胖节点应该是2块 |
| RAM | ECC(一般服务器都带)一般4卡以下64GB(32GB双通道),4卡用128GB以上(32X4多通道),8卡用256GB以上,主频3200以上 |
| 硬盘 | 主要看内槽位和外槽位,内槽位主要装固态 |
| 主板 | 这个没有太多能选的,看供应商。一般华硕够用了,有钱点选服务器板子,富哥选H3C |
| 电源 | 塔式: 机架式 HPC集群: |

三)进阶:路由与组网

(未完待续,先发出来占位,会一直更新的)

二、服务器配置

三、运维常见故障

四、Tricks

总结

以上所有内容是根据自己在实验室经验

相关推荐
FreeBuf_13 小时前
SesameOp 恶意软件滥用 OpenAI Assistants API 实现与 C2 服务器的隐蔽通信
运维·服务器·网络
凤凰战士芭比Q13 小时前
部署我的世界-java版服务器-frp内网穿透
java·服务器
噜啦噜啦嘞好13 小时前
Linux进程信号
linux·运维·服务器
REDcker14 小时前
Linux 进程资源占用分析指南
linux·运维·chrome
samroom14 小时前
Linux系统管理与常用命令详解
linux·运维·服务器
PKNLP14 小时前
07.docker介绍与常用命令
运维·docker·容器
Mxsoft61915 小时前
电力系统AR远程运维与数字孪生交互技术
运维·ar
一叶之秋141215 小时前
Linux基本指令
linux·运维·服务器
亚林瓜子15 小时前
在amazon linux 2023上面源码手动安装tesseract5.5.1
linux·运维·服务器·ocr·aws·ec2
FreeBuf_15 小时前
研究人员披露 Windows SMB 服务器权限提升漏洞(CVE-2025-58726)
运维·服务器·windows