服务器连接及训练问题

问题

服务器经常宕机连接不上

sudo journalctl -u NetworkManager --no-pager检查NetworkManager网络日志

log:

12月 22 10:51:13 ubuntu kernel: eth0: renamed from veth32a5b8e

docker网卡和物理网卡命名冲突

解决:

长期解决:避免 Docker 网卡命名冲突

核心是让 Docker 虚拟网卡使用独立的命名空间,不与物理网卡(eth0、enp0s3 等)冲突:

bash

运行

  1. 编辑 Docker 配置文件,指定虚拟网卡命名前缀
    sudo nano /etc/docker/daemon.json
    添加以下内容(让 Docker 虚拟网卡以 docker-veth- 为前缀,避免与 eth0 冲突):
json 复制代码
{
  "default-network-opts": {
    "bridge": "docker0",
    "veth-prefix": "docker-veth-"
  }
}

关闭docker

问题:

服务器训练时自动中断,报Segmentation fault (core dumped)

解决:

ulimit -c unlimited 开启core dump,无大小限制

gdb python用GDB启动python解释器
(gdb) run implementations/dcgan/dcgan.py --你的参数在GDB内部运行脚本

报错:

c10::cuda::CUDACachingAllocator::Native::allocator显存碎片化

解决:

  1. export PYTORCH_CUDA_ALLOC_CONF=max_split_size_mb:128(或32,512,这告诉 PyTorch 当剩余的大块显存小于 128MB 时,不要再将其拆分,从而保留大块连续内存)
  2. 减少batch
相关推荐
autumn200514 分钟前
Flutter 框架跨平台鸿蒙开发 - 历史人物对话
服务器·flutter·华为·harmonyos
亚空间仓鼠2 小时前
OpenEuler系统常用服务(五)
linux·运维·服务器·网络
AI成长日志2 小时前
【AI原生开发实战】1.2 传统开发 vs AI原生开发:思维转变与架构差异
服务器·架构·ai-native
2301_780789663 小时前
零信任架构在云安全落地过程中的最佳实践
服务器·人工智能·游戏·架构·零信任
Dfreedom.3 小时前
【实战篇】图像分割-计算图中不同颜色区域的面积比
图像处理·人工智能·深度学习·计算机视觉·图像分割·otsu
the sun343 小时前
从 QEMU 直接启动到 U-Boot 引导:嵌入式 Linux 启动流程的本质差异
linux·运维·服务器
三思守心3 小时前
从 0 到 1 搭建自动化内容工厂:深度测评楼兰AI及其在全平台发帖中的表现
运维·服务器·自动化
草莓熊Lotso3 小时前
【Linux 线程进阶】进程 vs 线程资源划分 + 线程控制全详解
java·linux·运维·服务器·数据库·c++·mysql
ZKNOW甄知科技3 小时前
数智同行:甄知科技2026年Q1季度回顾
运维·服务器·人工智能·科技·程序人生·安全·自动化
-SGlow-3 小时前
Linux相关概念和易错知识点(52)(基于System V的信号量和消息队列)
linux·运维·服务器