问题
服务器经常宕机连接不上
sudo journalctl -u NetworkManager --no-pager检查NetworkManager网络日志
log:
12月 22 10:51:13 ubuntu kernel: eth0: renamed from veth32a5b8e
docker网卡和物理网卡命名冲突
解决:
长期解决:避免 Docker 网卡命名冲突
核心是让 Docker 虚拟网卡使用独立的命名空间,不与物理网卡(eth0、enp0s3 等)冲突:
bash
运行
- 编辑 Docker 配置文件,指定虚拟网卡命名前缀
sudo nano /etc/docker/daemon.json
添加以下内容(让 Docker 虚拟网卡以 docker-veth- 为前缀,避免与 eth0 冲突):
json
{
"default-network-opts": {
"bridge": "docker0",
"veth-prefix": "docker-veth-"
}
}
关闭docker
问题:
服务器训练时自动中断,报Segmentation fault (core dumped)
解决:
ulimit -c unlimited 开启core dump,无大小限制
gdb python用GDB启动python解释器
(gdb) run implementations/dcgan/dcgan.py --你的参数在GDB内部运行脚本
报错:
c10::cuda::CUDACachingAllocator::Native::allocator显存碎片化
解决:
export PYTORCH_CUDA_ALLOC_CONF=max_split_size_mb:128(或32,512,这告诉 PyTorch 当剩余的大块显存小于 128MB 时,不要再将其拆分,从而保留大块连续内存)- 减少batch