服务器连接及训练问题

Zhuanshan_2025-12-26 9:21

服务器经常宕机连接不上

sudo journalctl -u NetworkManager --no-pager检查NetworkManager网络日志

log：

12月 22 10:51:13 ubuntu kernel: eth0: renamed from veth32a5b8e

docker网卡和物理网卡命名冲突

长期解决：避免 Docker 网卡命名冲突

核心是让 Docker 虚拟网卡使用独立的命名空间，不与物理网卡（eth0、enp0s3 等）冲突：

bash

运行

编辑 Docker 配置文件，指定虚拟网卡命名前缀
sudo nano /etc/docker/daemon.json
添加以下内容（让 Docker 虚拟网卡以 docker-veth- 为前缀，避免与 eth0 冲突）：

json 复制代码

{
  "default-network-opts": {
    "bridge": "docker0",
    "veth-prefix": "docker-veth-"
  }
}

关闭docker

服务器训练时自动中断，报Segmentation fault (core dumped)

ulimit -c unlimited 开启core dump，无大小限制

gdb python用GDB启动python解释器
(gdb) run implementations/dcgan/dcgan.py --你的参数在GDB内部运行脚本

c10::cuda::CUDACachingAllocator::Native::allocator显存碎片化

export PYTORCH_CUDA_ALLOC_CONF=max_split_size_mb:128(或32，512，这告诉 PyTorch 当剩余的大块显存小于 128MB 时，不要再将其拆分，从而保留大块连续内存)
减少batch