Linux运维笔记:1010实验室电脑资源规范使用指南

文章目录

  • [一. 检查资源使用情况,避免冲突](#一. 检查资源使用情况,避免冲突)
      • [1. 检查在线用户](#1. 检查在线用户)
      • [2. 检查 CPU 使用情况](#2. 检查 CPU 使用情况)
      • [3. 检查 GPU 使用情况](#3. 检查 GPU 使用情况)
      • [4. 协作建议](#4. 协作建议)
  • [二. 备份重要文件和数据](#二. 备份重要文件和数据)
  • [三. 定期清理硬盘空间](#三. 定期清理硬盘空间)
  • [四. 退出 ThinLinc 时注销,释放内存](#四. 退出 ThinLinc 时注销,释放内存)
  • [五. 校外使用时配置 VPN](#五. 校外使用时配置 VPN)
  • 总结

实验室的电脑配备了 CPU 和 GPU 资源,供多个子用户共享使用。为了避免资源冲突、提高效率并保护数据安全,大家需要规范使用工作站。以下是详细指导,帮助大家高效、协作地使用资源。

一. 检查资源使用情况,避免冲突


在运行代码前,务必检查 CPU 和 GPU 的使用情况,确保不与他人任务冲突。一起运行代码会降低性能,甚至导致程序崩溃。建议协商排队使用。

1. 检查在线用户

  • 命令who

  • 作用:查看当前登录工作站的用户。

  • 操作 :在终端输入以下命令:

    bash 复制代码
    who
  • 输出示例

    复制代码
    user1   pts/0    2025-06-03 14:30 (192.168.1.10)
    user2   pts/1    2025-06-03 14:32 (10.0.0.5)
  • 说明 :显示在线用户、登录时间和来源 IP。联系在线用户,确认他们的任务状态。

2. 检查 CPU 使用情况

  • 命令htop
  • 作用:实时查看 CPU 和内存使用情况,识别占用资源的进程。
  • 操作
    1. 在终端输入:

      bash 复制代码
      htop
    2. 查看"CPU"栏,检查使用率(例如 50% 表示一半负载)。

    3. F5 查看进程树,找到占用 CPU 的用户和程序(PID、用户、命令等)。

  • 建议:如果 CPU 占用高(如 >80%),联系相关用户,协商错开运行时间。

3. 检查 GPU 使用情况

  • 命令nvidia-smi

  • 作用:查看 GPU 内存、利用率和运行进程。

  • 操作

    1. 在终端输入:

      bash 复制代码
      nvidia-smi
    2. 检查"GPU-Util"列(GPU 利用率)和"Processes"部分(显示 PID、用户、程序名)。

  • 输出示例

    复制代码
    +---------------------------------------------------------------------------------+
    | NVIDIA-SMI 550.54.14    Driver Version: 550.54.14    CUDA Version: 12.4        |
    |-------------------------------+----------------------+-------------------------+
    | GPU  Name        Persistence-M| Bus-Id        Disp.A | Volatile Uncorr. ECC    |
    | Fan  Temp  Perf  Pwr:Usage/Cap|         Memory-Usage | GPU-Util  Compute M.    |
    |===============================+======================+=========================|
    |   0  NVIDIA GeForce RTX 4090  Off  | 00000000:01:00.0 Off |                 Off    |
    | 30%   38C    P2    55W / 450W |  14704MiB / 24564MiB |      0%      Default    |
    +-------------------------------+----------------------+-------------------------+
    | Processes:                                                                      |
    |  GPU   GI   CI   PID   Type   Process name                  GPU Memory Usage    |
    |===============================+======================+=========================|
    |    0    N/A  N/A  12345   C    python                    14700MiB              |
    +-------------------------------+----------------------+-------------------------+
  • 建议 :若 GPU 内存或利用率高,联系占用者(通过 PID 对应用户),商量排队使用

4. 协作建议

  • 沟通 :运行大任务前,与在线用户沟通,确认资源可用性。
  • 排队:协商使用时间,避免同时运行多个重负载任务。

二. 备份重要文件和数据


  • 重要性:工作站数据可能因硬件故障、误操作或系统问题丢失。
  • 建议
    1. 定期备份重要代码、数据和配置文件。
    2. 存储位置:
      • 个人电脑硬盘
      • U 盘或移动硬盘
      • 云存储(如百度网盘)
    3. 使用 SCP 命令FileZilla 软件(如下截图所示)可以快捷与个人主机文件传输
  • 注意 :不要完全依赖工作站存储,意外情况随时可能发生!并且注意传入工作站的文件是否安全,切勿将疑似带有病毒的文件包传入!

三. 定期清理硬盘空间


  • 背景:工作站硬盘是公用的,空间有限,需共同维护。

  • 操作

    1. 检查磁盘使用情况:

      bash 复制代码
      df -h
      • 查看挂载点(如 /home)的剩余空间。
    2. 查找大文件或无用数据:

      bash 复制代码
      du -sh /home/* | sort -hr
      • 列出目录和文件大小,找出占用空间大的内容。
    3. 清理垃圾文件:

      • 删除临时文件、日志、旧数据包等。

      • 示例:删除 *.tmp 文件:

        bash 复制代码
        rm -rf /home/your_username/*.tmp
  • 建议

    • 将不必要的文件转移到个人电脑或网盘。
    • 能不留的垃圾文件和数据包都删除,保持硬盘整洁。
    • 定期(例如每周)检查和清理。

四. 退出 ThinLinc 时注销,释放内存


  • 背景:ThinLinc 是实验室常用的远程桌面工具,退出时若不注销,会话可能继续占用内存,导致工作站性能下降或死机。

  • 操作

    1. 确认无程序需要后台运行。
    2. 点击桌面右上角的"注销"按钮(通常在系统菜单中)。
    3. 选择"注销"或"Log Out",结束会话。
  • 好处

    • 释放主机内存,减少资源占用。
    • 降低工作站死机风险,提高稳定性。
  • 注意

    • 但是若有长期任务(如训练模型),要确保任务在后台运行
    • 若再次登陆时,发现无法通过 ThinLinc 建立连接的问题,如下图所示把End existing session勾选上再次尝试

五. 校外使用时配置 VPN


  • 需求:在校外访问实验室工作站需通过学校网络。
  • 操作
    1. 访问学校官网,找到 IT 或网络服务页面。
    2. 下载 VPN 连接软件:EasyConnect
    3. 安装并配置:
      • 输入学校提供的 VPN 服务器地址。
      • 使用您的学号/工号和密码登录。
    4. 连接成功后,通过 ThinLinc 或 SSH 访问工作站。
  • 建议
    • 确保 EasyConnect 版本与学校要求一致。
    • 校外使用时,保持 VPN 连接稳定,避免中断。

注意事项

  • 谨慎操作:管理员修改系统设置或删除文件前,确认权限和影响。
  • 备份:所有建议中,备份和沟通始终是关键,保护代码和数据。
  • 尊重他人:资源共享,优先沟通,协商使用

总结


规范使用实验室电脑资源是大家的责任!运行代码前检查 CPU(htop)和 GPU(nvidia-smi),用 who 确认在线用户,协商排队;备份重要数据,定期清理硬盘;退出 ThinLinc 时注销释放内存;校外使用时配置 EasyConnect VPN。让我们共同维护工作站的高效和稳定!

如有疑问,联系实验室管理员或群内讨论。谢谢配合!

相关推荐
xhbh6668 分钟前
服务器转发表完全教程:路由表vs转发表的区别与联系
运维·服务器
互联科技报11 分钟前
2026 年度甄选:国内高可靠性 AI 算力服务器供应商
运维·服务器·人工智能
lzh2004091912 分钟前
效率与安全并重:C++ 线程安全
linux·c++
l1t14 分钟前
DeepSeek总结的Quack:DuckDB 客户端-服务器协议
运维·服务器·数据库·duckdb
楼田莉子15 分钟前
仿Muduo的高并发服务器:基于HTTP的HTTP服务器及其测试
运维·服务器·http
Lucis__15 分钟前
I/O多路复用:基于epoll实现Reactor高性能TCP服务器
linux·服务器·网络·reactor·多路复用
kyle~16 分钟前
Linux时间系统3---时间同步控制机制(step、slew、offset、frequency)
linux·运维·服务器
05候补工程师18 分钟前
【矩阵代数】伴随矩阵、逆矩阵与秩的逻辑关系全梳理
笔记·线性代数·考研·矩阵
Hua-Jay21 分钟前
OpenCV联合C++/Qt 学习笔记(十八)----二维码检测及积分图像
c++·笔记·qt·opencv·学习
Agent手记28 分钟前
物流对账全流程自动化,落地实操与财务打通方案:基于LLM+智能体驱动的业财一体化实践
运维·人工智能·ai·自动化