面向科研狗的服务器运维——服务器搭建维护到排障

系列文章目录

写在前面:某高校的苦逼计算机博士生。因为之前在高性能计算国家重点实验室做工程师,也负责了当时的超算节点的部分运维工作,所以现在也承担了组里的服务器运维工作。


文章目录


前言

提示:这里可以添加本文要记录的大概内容:

例如:随着人工智能的不断发展,机器学习这门技术也越来越重要,很多人都开启了学习机器学习,本文就介绍了机器学习的基础内容。


提示:以下是本篇文章正文内容,下面案例可供参考

一、服务器选型

这里就不赘述了,根据实验室资金选就好了。如果资金有限可以根据如下做考虑:

一)类型

这里指外观类型,和实验室占地有关。具体可以参考以下表格。另外简单来说:如果机器放在实验室,建议使用塔式服务器 且风扇要选静音的!如果是在机房,有多个服务器要放置,建议直接配好机架 ,并根据机架选择4U(更强大兼容更强)或者2U机架式 。如果做CPU任务或者网络任务,没有过多的GPU需求建议刀片式,CPU节点要求多,直接定制HPC Cluster吧,我之前工作时管理的就是400个Nodes集群,都是半裸式的!

服务器类型 特点 适用场景
塔式服务器 易于安装,扩展性强 小型企业及家庭使用
机架式服务器 适合密集部署,空间利用高 数据中心及企业环境
刀片服务器 高密度、高性能 大型企业及云计算环境
高性能计算(HPC) 提供极高计算能力 科研、模拟与建模任务

二)配件

|-----|------------------------------------------------------------------------------------------------------------------------------------------------------------------------|
| CPU | 塔式:一般都是单核(只带4个以内的GPU),富哥直接 机架式: HPC集群:看供应商怎么给你配吧,越强越好,有钱直接双i9,单核性能拉满。一般用风冷 |
| GPU | 任务:看你是什么任务,一般机器学习就RTX就行,目前3090性价比最高,富哥选4090,穷的话2080Ti,一定要显存24GB的!大模型或者大参数量任务就选显存高的,进阶A40<A6000(40GB),有钱就A100,H100,富哥组用A800,H800 塔式:一般智能2-4块 机架式:4U能装8块 HPC集群:胖节点应该是2块 |
| RAM | ECC(一般服务器都带)一般4卡以下64GB(32GB双通道),4卡用128GB以上(32X4多通道),8卡用256GB以上,主频3200以上 |
| 硬盘 | 主要看内槽位和外槽位,内槽位主要装固态 |
| 主板 | 这个没有太多能选的,看供应商。一般华硕够用了,有钱点选服务器板子,富哥选H3C |
| 电源 | 塔式: 机架式 HPC集群: |

三)进阶:路由与组网

(未完待续,先发出来占位,会一直更新的)

二、服务器配置

三、运维常见故障

四、Tricks

总结

以上所有内容是根据自己在实验室经验

相关推荐
猫头虎2 分钟前
猫头虎 AI工具分享:一个网页抓取、结构化数据提取、网页爬取、浏览器自动化操作工具:Hyperbrowser MCP
运维·人工智能·gpt·开源·自动化·文心一言·ai编程
cocologin2 小时前
RIP 技术深度解析
运维·网络·网络协议
cv高级工程师YKY2 小时前
SRE - - PV、UV、VV、IP详解及区别
大数据·服务器·uv
庸子2 小时前
基于Jenkins和Kubernetes构建DevOps自动化运维管理平台
运维·kubernetes·jenkins
Lpy25692 小时前
Docker Desktop 安装到D盘(包括镜像下载等)+ 汉化
运维·docker·容器
眠修3 小时前
Kuberrnetes 服务发布
linux·运维·服务器
好奇的菜鸟3 小时前
Docker 配置项详解与示例
运维·docker·容器
xcs194054 小时前
集运维 麒麟桌面版v10 sp1 2403 aarch64 离线java开发环境自动化安装
运维·自动化
BAOYUCompany4 小时前
暴雨服务器成功中标华中科技大学集成电路学院服务器采购项目
运维·服务器
超龄超能程序猿5 小时前
Bitvisse SSH Client 安装配置文档
运维·ssh·github