面向科研狗的服务器运维——服务器搭建维护到排障

系列文章目录

写在前面:某高校的苦逼计算机博士生。因为之前在高性能计算国家重点实验室做工程师,也负责了当时的超算节点的部分运维工作,所以现在也承担了组里的服务器运维工作。


文章目录


前言

提示:这里可以添加本文要记录的大概内容:

例如:随着人工智能的不断发展,机器学习这门技术也越来越重要,很多人都开启了学习机器学习,本文就介绍了机器学习的基础内容。


提示:以下是本篇文章正文内容,下面案例可供参考

一、服务器选型

这里就不赘述了,根据实验室资金选就好了。如果资金有限可以根据如下做考虑:

一)类型

这里指外观类型,和实验室占地有关。具体可以参考以下表格。另外简单来说:如果机器放在实验室,建议使用塔式服务器 且风扇要选静音的!如果是在机房,有多个服务器要放置,建议直接配好机架 ,并根据机架选择4U(更强大兼容更强)或者2U机架式 。如果做CPU任务或者网络任务,没有过多的GPU需求建议刀片式,CPU节点要求多,直接定制HPC Cluster吧,我之前工作时管理的就是400个Nodes集群,都是半裸式的!

服务器类型 特点 适用场景
塔式服务器 易于安装,扩展性强 小型企业及家庭使用
机架式服务器 适合密集部署,空间利用高 数据中心及企业环境
刀片服务器 高密度、高性能 大型企业及云计算环境
高性能计算(HPC) 提供极高计算能力 科研、模拟与建模任务

二)配件

|-----|------------------------------------------------------------------------------------------------------------------------------------------------------------------------|
| CPU | 塔式:一般都是单核(只带4个以内的GPU),富哥直接 机架式: HPC集群:看供应商怎么给你配吧,越强越好,有钱直接双i9,单核性能拉满。一般用风冷 |
| GPU | 任务:看你是什么任务,一般机器学习就RTX就行,目前3090性价比最高,富哥选4090,穷的话2080Ti,一定要显存24GB的!大模型或者大参数量任务就选显存高的,进阶A40<A6000(40GB),有钱就A100,H100,富哥组用A800,H800 塔式:一般智能2-4块 机架式:4U能装8块 HPC集群:胖节点应该是2块 |
| RAM | ECC(一般服务器都带)一般4卡以下64GB(32GB双通道),4卡用128GB以上(32X4多通道),8卡用256GB以上,主频3200以上 |
| 硬盘 | 主要看内槽位和外槽位,内槽位主要装固态 |
| 主板 | 这个没有太多能选的,看供应商。一般华硕够用了,有钱点选服务器板子,富哥选H3C |
| 电源 | 塔式: 机架式 HPC集群: |

三)进阶:路由与组网

(未完待续,先发出来占位,会一直更新的)

二、服务器配置

三、运维常见故障

四、Tricks

总结

以上所有内容是根据自己在实验室经验

相关推荐
Eric.Lee20214 小时前
ubuntu 安装 Miniconda
linux·运维·python·ubuntu·miniconda
会飞的土拨鼠呀4 小时前
通过Linux进程id找到程序路径
linux·服务器·网络
杭州泽沃电子科技有限公司4 小时前
在线监测:为医药精细化工奠定安全、合规与质量基石
运维·人工智能·物联网·安全·智能监测
行初心4 小时前
uos基础 cupsd.conf 查看打印服务的配置文件
运维
1***y1785 小时前
Git在发布流程中的自动化标签
运维·git·自动化
8***84825 小时前
如何在Linux中找到MySQL的安装目录
linux·运维·mysql
9***J6285 小时前
Linux下PostgreSQL-12.0安装部署详细步骤
linux·运维·postgresql
gggg远6 小时前
docker详解
运维·docker·容器
wanhengidc6 小时前
云手机中的数据通常存储在哪里?
运维·服务器·安全·web安全·智能手机
凌寒116 小时前
Linux(Debain)安装Redis、数据迁移
linux·运维·服务器·redis