服务器连接及训练问题

问题

服务器经常宕机连接不上

sudo journalctl -u NetworkManager --no-pager检查NetworkManager网络日志

log:

12月 22 10:51:13 ubuntu kernel: eth0: renamed from veth32a5b8e

docker网卡和物理网卡命名冲突

解决:

长期解决:避免 Docker 网卡命名冲突

核心是让 Docker 虚拟网卡使用独立的命名空间,不与物理网卡(eth0、enp0s3 等)冲突:

bash

运行

  1. 编辑 Docker 配置文件,指定虚拟网卡命名前缀
    sudo nano /etc/docker/daemon.json
    添加以下内容(让 Docker 虚拟网卡以 docker-veth- 为前缀,避免与 eth0 冲突):
json 复制代码
{
  "default-network-opts": {
    "bridge": "docker0",
    "veth-prefix": "docker-veth-"
  }
}

关闭docker

问题:

服务器训练时自动中断,报Segmentation fault (core dumped)

解决:

ulimit -c unlimited 开启core dump,无大小限制

gdb python用GDB启动python解释器
(gdb) run implementations/dcgan/dcgan.py --你的参数在GDB内部运行脚本

报错:

c10::cuda::CUDACachingAllocator::Native::allocator显存碎片化

解决:

  1. export PYTORCH_CUDA_ALLOC_CONF=max_split_size_mb:128(或32,512,这告诉 PyTorch 当剩余的大块显存小于 128MB 时,不要再将其拆分,从而保留大块连续内存)
  2. 减少batch
相关推荐
金融小师妹1 小时前
基于LSTM-GARCH-EVT混合模型的贵金属极端波动解析:黄金白银双双反弹的逻辑验证
大数据·人工智能·深度学习·机器学习
陈天伟教授1 小时前
人工智能应用- 语言理解:01. 写作与对话
人工智能·深度学习·语音识别
LucDelton3 小时前
模型微调思路
人工智能·深度学习·机器学习
Kaede64 小时前
提示dns服务器未响应,需要做哪些事?
运维·服务器
CRUD酱4 小时前
CentOS的yum仓库失效问题解决(换镜像源)
linux·运维·服务器·centos
哥布林学者4 小时前
吴恩达深度学习课程五:自然语言处理 第三周:序列模型与注意力机制 课后习题与代码实践
深度学习·ai
AAD555888994 小时前
压接工具检测识别----RPN-R50-Caffe-C4模型训练与优化
人工智能·深度学习
OLOLOadsd1234 小时前
基于NAS-FCOS的拥挤路段车辆检测系统:R50-Caffe-FPN-NASHead-GN-Head模型训练与优化_1
人工智能·深度学习
We....4 小时前
鸿蒙与Java跨平台Socket通信实战
java·服务器·tcp/ip·arkts·鸿蒙
zly35005 小时前
VMware vCenter Converter Standalone 转换Linux系统,出现两个磁盘的处理
linux·运维·服务器