【阿里云试用计划】免费试用GPU

写在前面:本博客仅作记录学习之用,部分图片来自网络,如需引用请注明出处,同时如有侵犯您的权益,请联系删除!


文章目录


前言

算力在深度学习中扮演着非常重要的角色,深度学习模型通常包含大量的参数和复杂的计算图,需要对大规模数据进行训练和推断。随着数据集越来越大,各种深度学习任务如图像、扩散模型、多模态、大模型等对算力的要求也稳步较高、为提高模型性能网络参数也逐步提升,以至于想要体验都不方便,更别提需要训练网络的学生。因此白嫖算力成为一种无奈之举,下面提供一种途径:阿里云试用计划。希望对小伙伴们有帮助。

试用步骤

阿里云深度学习服务器和常见AutoDL、mistGPU略有不同,想要快速上手参考下列步骤。

网址:阿里云免费试用注意这是针对新用户的活动,截止时间8.31。因此需要注册一个账号。

界面如下:

  • 点击机器学习平台,进入下图
  • 点击交互式建模,最好看下试用教程。教程是stable-diffusion,因此体验文字(英文)生成图像跟着教程即可。立即试用,进入下图
  • 跟着试用教程,创建实例。这里是我以前创建的实例。创建实例,进入下图
  • 配置实例。名称啥的随意,注意选择GPU、镜像(体验教程记得选择stable-diffusion的镜像)。创建实例,进入下图
  • 确认配置和金额后创建,如需要安全组、交换机等可自行创建。确认无误后创建
  • 再次进入交互式建模,可以看到就创建好实例了,后面就是环境和数据上传了。
  • 选择实例进入,可以具体的配置信息。
  • 开机进入实例,主要是jupyter、webIDE、终端。教程stable-diffusion主要在jupyter中,创建配置环境并实现生成图像。如果需要配置自己的环境,进入终端,使用pip配置即可。
  • 数据,默认挂载需要oss或者ssd,如果数据集很大的话还是建议去挂载。数据不大直接上传打包上传即可,避免其他一些操作。调试修改使用webIED,这个使用ssh和比较麻烦,不方便和pycharm配合使用。

  • 在解压出来,使用以下命令

  • unzip yourdata.zip -d unzip_path

  • 最后运行,芜湖起飞。


问题

No CUDA GPUs are available

详细的报错内容:出现在 .to(device)

python 复制代码
torch._C._cuda_init() No CUDA GPUs are available

但是torch显示cuda可用,如下

python 复制代码
torch.cuda.is_available()  # true
torch.cuda.device_count()  # 1

解决办法:

在脚本中添加:

python 复制代码
os.environ['CUDA_VISIBLE_DEVICES'] = '0'

无故被killed

报错截图如下:

原因:占用的显存太大,系统为保持稳定,kill进程。

解决办法:调小参数,如batch-size等,占用显存略小于16G即可。

致谢

欲尽善本文,因所视短浅,怎奈所书皆是瞽言蒭议。行文至此,诚向予助与余者致以谢意。

相关推荐
Serverless社区5 分钟前
函数计算的云上计费演进:从请求驱动到价值驱动,助力企业走向 AI 时代
阿里云·云原生·serverless
容器魔方1 天前
Bloomberg 正式加入 Karmada 用户组!
云原生·容器·云计算
AKAMAI2 天前
Sport Network 凭借 Akamai 实现卓越成就
人工智能·云原生·云计算
10岁的博客2 天前
《云计算如何驱动企业数字化转型:关键技术与实践案例》
云计算
m0_694845573 天前
教你使用服务器如何搭建数据库
linux·运维·服务器·数据库·云计算
shinelord明3 天前
【数据行业发展】可信数据空间~数据价值的新型基础设施
大数据·架构·云计算·创业创新
XINVRY-FPGA3 天前
XCKU15P-2FFVA1760I AMD 赛灵思 Xilinx Kintex UltraScale+ FPGA
arm开发·嵌入式硬件·阿里云·fpga开发·云计算·硬件工程·fpga
王道长服务器 | 亚马逊云3 天前
一个迁移案例:从传统 IDC 到 AWS 的真实对比
java·spring boot·git·云计算·github·dubbo·aws
世间小小鱼3 天前
【爬坑指南】亚马逊文件中心 AWS S3 预签名URL 前端直传
前端·云计算·aws
TG_yunshuguoji3 天前
亚马逊云代理商:AWS亚马逊云的独特优势与实用价值
服务器·云计算·aws