deepspeed

An_ich1 个月前
python·deepspeed
windows安装deepspeed setup.py 207行找不到文件一直报莫名奇妙的错误,查了半天也没查到去看了一下源码,需要安装git,我没有安装git命令获得信息也没啥用
改进的拜耳法—木研2 个月前
llama·deepspeed·大模型微调·向量化微调·llama_factory
llama_factory Qlora微调异常 No package metadata was found for The ‘autoawq‘其实问题比较简单 直接安装autoawq 即可 但是对应会有版本问题: 查看当前llama factory版本
营赢盈英4 个月前
python·ai·llm·nlp·huggingface·transformers·deepspeed
Deepspeed : AttributeError: ‘DummyOptim‘ object has no attribute ‘step‘题意:尝试在一个名为 DummyOptim 的对象上调用 .step() 方法,但是这个对象并没有定义这个方法
XMoyas5 个月前
docker·大模型·分布式训练·deepspeed·多机多卡
deepspeed docker集群实现多机多卡训练----问题记录及解决方案资源汇总问题1:deepspeed socketStartConnect: Connect to 172.18.0.3<54379> failed : Software caused connection abort 有效方案:【博客园-高颜值的杀生丸】deepspeed 训练多机多卡报错 ncclSystemError Last error
HuggingFace5 个月前
deepspeed·fdsp
Hugging Face Accelerate 两个后端的故事:FSDP 与 DeepSpeed社区中有两个流行的 零冗余优化器(Zero Redundancy Optimizer,ZeRO) 算法实现,一个来自 DeepSpeed,另一个来自 PyTorch。Hugging Face Accelerate 对这两者都进行了集成并通过接口暴露出来,以供最终用户在训练/微调模型时自主选择其中之一。本文重点介绍了 Accelerate 对外暴露的这两个后端之间的差异。为了让用户能够在这两个后端之间无缝切换,我们在 Accelerate 中合并了 一个精度相关的 PR 及 一个新的概念指南。
hjxu20166 个月前
大模型·分布式训练·deepspeed
大模型训练框架DeepSpeed使用入门(1): 训练设置官方文档直接抄过来,留个笔记。 https://deepspeed.readthedocs.io/en/latest/initialize.html
SpikeKing8 个月前
人工智能·分布式训练·大语言模型·并行策略·deepspeed·集群架构
LLM - 大语言模型的分布式训练 概述欢迎关注我的CSDN:https://spike.blog.csdn.net/ 本文地址:https://blog.csdn.net/caroline_wendy/article/details/136924304
胖胖大海1 年前
pytorch·dp·deepspeed·ddp·fsdp
pytorch单精度、半精度、混合精度、单卡、多卡(DP / DDP)、FSDP、DeepSpeed模型训练pytorch单精度、半精度、混合精度、单卡、多卡(DP / DDP)、FSDP、DeepSpeed(环境没搞起来)模型训练代码,并对比不同方法的训练速度以及GPU内存的使用
京东云技术团队1 年前
人工智能·ai·大模型·京东云·deepspeed
DeepSpeed: 大模型训练框架 | 京东云技术团队目前,大模型的发展已经非常火热,关于大模型的训练、微调也是各个公司重点关注方向。但是大模型训练的痛点是模型参数过大,动辄上百亿,如果单靠单个GPU来完成训练基本不可能。所以需要多卡或者分布式训练来完成这项工作。
京东云技术团队1 年前
deepspeed
DeepSpeed: 大模型训练框架目前,大模型的发展已经非常火热,关于大模型的训练、微调也是各个公司重点关注方向。但是大模型训练的痛点是模型参数过大,动辄上百亿,如果单靠单个GPU来完成训练基本不可能。所以需要多卡或者分布式训练来完成这项工作。