Training - 使用 WandB 配置 可视化 模型训练参数

欢迎关注我的CSDN:https://spike.blog.csdn.net/

本文地址:https://blog.csdn.net/caroline_wendy/article/details/137529140

WandB (Weights&Biases) 是轻量级的在线模型训练可视化工具,类似于 TensorBoard,可以帮助用户跟踪实验,记录运行中的超参数和输出指标,可视化结果,并且,共享这些结果。WandB 支持所有主流的深度学习框架,如 TensorFlow、PyTorch、Keras 等,提供了丰富的功能。使用 WandB,可以轻松地监控模型训练过程,通过云平台同步模型输出、日志和文件,便于远程监控和协作。

WandB 的自动化配置如下,在 sh 文件中,配置账号:

bash 复制代码
wandb online
wandb login [your api key]

API Key 位于 User settings - Danger Zone,即:

API Key 需要与 WANDB_ENTITY 成对使用。

启动 WandB 的命令,如下:

  • entity: WandB 的 UserName,需要与 API Key 配对。
  • project: 工程名称,用于存储名称
  • name:实验名称,用于区分不同的实验

即:

python 复制代码
os.environ['WANDB_ENTITY'] = "[your name]"

if args.wandb:
    logger.info(f"Initializing wandb! {os.environ['WANDB_ENTITY']}")
    wandb.init(
        entity=os.environ["WANDB_ENTITY"],
        settings=wandb.Settings(start_method="fork"),
        project="alphaflow",
        name=args.run_name,
        config=args,)

注意:同一个项目(Project),例如 alphaflow,结果才能进行比较。

WandB 的相关日志:

bash 复制代码
wandb: Currently logged in as: morndragon. Use `wandb login --relogin` to force relogin
wandb: wandb version 0.16.6 is available!  To upgrade, please run:
wandb:  $ pip install wandb --upgrade
wandb: Tracking run with wandb version 0.16.5
wandb: Run data is saved locally in wandb/run-20240408_161416-fl5dmx0d
wandb: Run `wandb offline` to turn off syncing.
wandb: Syncing run experiment-20240408
wandb: ⭐️ View project at https://wandb.ai/[your name]/alphaflow
wandb: 🚀 View run at https://wandb.ai/[your name]/alphaflow/runs/fl5dmx0d/workspace

WandB 页面展示:

Bug:wandb.errors.CommError: It appears that you do not have permission to access the requested resource.,即:

bash 复制代码
wandb: Currently logged in as: morndragon. Use `wandb login --relogin` to force relogin
wandb: ERROR Error while calling W&B API: permission denied (<Response [403]>)
Problem at: /nfs_beijing_ai/chenlong/workspace/alphaflow-by-chenlong/train.py 50 main
wandb: ERROR It appears that you do not have permission to access the requested resource. Please reach out to the project owner to grant you access. If you have the correct permissions, verify that there are no issues with your networking setup.(Error 403: Forbidden)
Traceback (most recent call last):
  File "train.py", line 177, in <module>
    main()
  File "train.py", line 50, in main
    wandb.init(
  File "miniconda3/envs/alphaflow/lib/python3.9/site-packages/wandb/sdk/wandb_init.py", line 1206, in init
    raise e
  File "miniconda3/envs/alphaflow/lib/python3.9/site-packages/wandb/sdk/wandb_init.py", line 1187, in init
    run = wi.init()
  File "miniconda3/envs/alphaflow/lib/python3.9/site-packages/wandb/sdk/wandb_init.py", line 786, in init
    raise error
wandb.errors.CommError: It appears that you do not have permission to access the requested resource. Please reach out to the project owner to grant you access. If you have the correct permissions, verify that there are no issues with your networking setup.(Error 403: Forbidden)

原因是 WandB 的登录名称 WANDB_ENTITY,与 API Key,不匹配,需要重新设置,即可。

python 复制代码
os.environ['WANDB_ENTITY'] = "[your name]"
相关推荐
xhload3d7 天前
场景切换 × 流畅过渡动画实现方案 | 图扑软件
物联网·3d·智慧城市·html5·动画·webgl·数字孪生·可视化·虚拟现实·工业互联网·工控·工业·2d·轻量化·过渡动画
林泽毅8 天前
Mac训练大模型:MLX-LM框架LoRA训练Qwen3并集成SwanLab进行可视化
人工智能·深度学习·macos·机器学习·大模型·模型训练
麦麦大数据9 天前
vue+Django 双推荐算法旅游大数据可视化系统Echarts mysql数据库 带爬虫
数据库·vue.js·django·可视化·推荐算法·百度地图·旅游景点
丁同亚的博客9 天前
echarts大屏项目指南
echarts·可视化·js·web前端·大屏
麦麦大数据10 天前
百度地图+vue+flask+爬虫 推荐算法旅游大数据可视化系统Echarts mysql数据库 带沙箱支付+图像识别技术
vue.js·机器学习·flask·可视化·推荐算法·旅游大数据
爱分享的飘哥20 天前
第七十三章:AI的“黑箱”迷局:推理链路中的断点与Tensor调试——让模型“交代一切”!
人工智能·可视化·tensor·断点·错误分析·模型调试·推理调试
云游23 天前
大模型性能指标的监控系统(prometheus3.5.0)和可视化工具(grafana12.1.0)基础篇
grafana·prometheus·可视化·监控
麦麦大数据23 天前
F004 新闻可视化系统爬虫更新数据+ flask + mysql架构
爬虫·mysql·flask·可视化·新闻
点云侠25 天前
【2025最新版】PCL点云处理算法汇总(C++长期更新版)
c++·算法·计算机视觉·3d·可视化
星座5281 个月前
最新基于Python科研数据可视化实践技术
python·信息可视化·可视化·数据可视化