服务器连接及训练问题

问题

服务器经常宕机连接不上

sudo journalctl -u NetworkManager --no-pager检查NetworkManager网络日志

log:

12月 22 10:51:13 ubuntu kernel: eth0: renamed from veth32a5b8e

docker网卡和物理网卡命名冲突

解决:

长期解决:避免 Docker 网卡命名冲突

核心是让 Docker 虚拟网卡使用独立的命名空间,不与物理网卡(eth0、enp0s3 等)冲突:

bash

运行

  1. 编辑 Docker 配置文件,指定虚拟网卡命名前缀
    sudo nano /etc/docker/daemon.json
    添加以下内容(让 Docker 虚拟网卡以 docker-veth- 为前缀,避免与 eth0 冲突):
json 复制代码
{
  "default-network-opts": {
    "bridge": "docker0",
    "veth-prefix": "docker-veth-"
  }
}

关闭docker

问题:

服务器训练时自动中断,报Segmentation fault (core dumped)

解决:

ulimit -c unlimited 开启core dump,无大小限制

gdb python用GDB启动python解释器
(gdb) run implementations/dcgan/dcgan.py --你的参数在GDB内部运行脚本

报错:

c10::cuda::CUDACachingAllocator::Native::allocator显存碎片化

解决:

  1. export PYTORCH_CUDA_ALLOC_CONF=max_split_size_mb:128(或32,512,这告诉 PyTorch 当剩余的大块显存小于 128MB 时,不要再将其拆分,从而保留大块连续内存)
  2. 减少batch
相关推荐
童园管理札记2 小时前
融传统文化于幼儿日常 育根魂少年于启蒙之时
经验分享·深度学习·创业创新·学习方法·微信公众平台
杰克崔2 小时前
localtime接口与localtime_r接口
linux·运维·服务器·车载系统
HalvmånEver2 小时前
Linux:简介(进程间通信一)
linux·运维·服务器
汽车通信软件大头兵2 小时前
汽车MCU 信息安全--数字证书
服务器·https·ssl
以为不会掉头发的詹同学2 小时前
【TCP通讯加密】TLS/SSL 证书生成、自签名证书、请求 CA 签发证书以及使用 Python TCP 服务器与客户端进行加密通讯
服务器·python·tcp/ip·ssl
阿沁QWQ2 小时前
windows连接服务器免密
运维·服务器
开开心心_Every2 小时前
定时管理进程:防止沉迷电脑的软件推荐
xml·java·运维·服务器·网络·数据库·excel
云霄IT2 小时前
ssh使用代理连接服务器:基本用法使用ncat
运维·服务器·ssh
FIT2CLOUD飞致云2 小时前
支持IP证书签发、数据库TCP代理,1Panel v2.0.16版本正式发布
linux·运维·服务器·开源·1panel·ip证书