服务器连接及训练问题

问题

服务器经常宕机连接不上

sudo journalctl -u NetworkManager --no-pager检查NetworkManager网络日志

log:

12月 22 10:51:13 ubuntu kernel: eth0: renamed from veth32a5b8e

docker网卡和物理网卡命名冲突

解决:

长期解决:避免 Docker 网卡命名冲突

核心是让 Docker 虚拟网卡使用独立的命名空间,不与物理网卡(eth0、enp0s3 等)冲突:

bash

运行

  1. 编辑 Docker 配置文件,指定虚拟网卡命名前缀
    sudo nano /etc/docker/daemon.json
    添加以下内容(让 Docker 虚拟网卡以 docker-veth- 为前缀,避免与 eth0 冲突):
json 复制代码
{
  "default-network-opts": {
    "bridge": "docker0",
    "veth-prefix": "docker-veth-"
  }
}

关闭docker

问题:

服务器训练时自动中断,报Segmentation fault (core dumped)

解决:

ulimit -c unlimited 开启core dump,无大小限制

gdb python用GDB启动python解释器
(gdb) run implementations/dcgan/dcgan.py --你的参数在GDB内部运行脚本

报错:

c10::cuda::CUDACachingAllocator::Native::allocator显存碎片化

解决:

  1. export PYTORCH_CUDA_ALLOC_CONF=max_split_size_mb:128(或32,512,这告诉 PyTorch 当剩余的大块显存小于 128MB 时,不要再将其拆分,从而保留大块连续内存)
  2. 减少batch
相关推荐
Sinclair18 小时前
简单几步,安卓手机秒变服务器,安装 CMS 程序
android·服务器
CoovallyAIHub1 天前
仿生学突破:SILD模型如何让无人机在电力线迷宫中发现“隐形威胁”
深度学习·算法·计算机视觉
CoovallyAIHub1 天前
从春晚机器人到零样本革命:YOLO26-Pose姿态估计实战指南
深度学习·算法·计算机视觉
CoovallyAIHub1 天前
Le-DETR:省80%预训练数据,这个实时检测Transformer刷新SOTA|Georgia Tech & 北交大
深度学习·算法·计算机视觉
CoovallyAIHub1 天前
强化学习凭什么比监督学习更聪明?RL的“聪明”并非来自算法,而是因为它学会了“挑食”
深度学习·算法·计算机视觉
CoovallyAIHub1 天前
YOLO-IOD深度解析:打破实时增量目标检测的三重知识冲突
深度学习·算法·计算机视觉
用户1474853079742 天前
AI-动手深度学习环境搭建-d2l
深度学习
OpenBayes贝式计算2 天前
解决视频模型痛点,TurboDiffusion 高效视频扩散生成系统;Google Streetview 涵盖多个国家的街景图像数据集
人工智能·深度学习·机器学习
OpenBayes贝式计算2 天前
OCR教程汇总丨DeepSeek/百度飞桨/华中科大等开源创新技术,实现OCR高精度、本地化部署
人工智能·深度学习·机器学习
Rockbean2 天前
用40行代码搭建自己的无服务器OCR
服务器·python·deepseek