服务器连接及训练问题

问题

服务器经常宕机连接不上

sudo journalctl -u NetworkManager --no-pager检查NetworkManager网络日志

log:

12月 22 10:51:13 ubuntu kernel: eth0: renamed from veth32a5b8e

docker网卡和物理网卡命名冲突

解决:

长期解决:避免 Docker 网卡命名冲突

核心是让 Docker 虚拟网卡使用独立的命名空间,不与物理网卡(eth0、enp0s3 等)冲突:

bash

运行

  1. 编辑 Docker 配置文件,指定虚拟网卡命名前缀
    sudo nano /etc/docker/daemon.json
    添加以下内容(让 Docker 虚拟网卡以 docker-veth- 为前缀,避免与 eth0 冲突):
json 复制代码
{
  "default-network-opts": {
    "bridge": "docker0",
    "veth-prefix": "docker-veth-"
  }
}

关闭docker

问题:

服务器训练时自动中断,报Segmentation fault (core dumped)

解决:

ulimit -c unlimited 开启core dump,无大小限制

gdb python用GDB启动python解释器
(gdb) run implementations/dcgan/dcgan.py --你的参数在GDB内部运行脚本

报错:

c10::cuda::CUDACachingAllocator::Native::allocator显存碎片化

解决:

  1. export PYTORCH_CUDA_ALLOC_CONF=max_split_size_mb:128(或32,512,这告诉 PyTorch 当剩余的大块显存小于 128MB 时,不要再将其拆分,从而保留大块连续内存)
  2. 减少batch
相关推荐
wangqiaowq4 小时前
windows下nginx的安装
linux·服务器·前端
初心未改HD5 小时前
深度学习之CNN卷积层详解
人工智能·深度学习·cnn
AI医影跨模态组学5 小时前
EBioMedicine美国佐治亚理工学院与埃默里大学:基于深度学习的放射组学与病理学多模态融合预测HPV相关口咽鳞状细胞癌预后
人工智能·深度学习·论文·医学·医学影像·影像组学
cen__y6 小时前
Linux12(Git01)
linux·运维·服务器·c语言·开发语言·git
人工智能培训6 小时前
大模型与传统小模型、传统NLP模型的核心差异解析
人工智能·深度学习·神经网络·机器学习·生成对抗网络
189228048618 小时前
NY352固态MT29F32T08GWLBHD6-24QJ:B
大数据·服务器·人工智能·科技·缓存
AI视觉网奇8 小时前
linux 检索库 判断库是否支持
java·linux·服务器
Terrence Shen9 小时前
大模型部署工具对比
人工智能·深度学习·计算机视觉
一楼的猫9 小时前
从工具链视角对比:番茄作家助手 vs 第三方写作辅助方案
java·服务器·开发语言·前端·学习·chatgpt·ai写作