llamafactory

羊城迷鹿3 小时前
大模型·微调·多模态·qwen·llamafactory·oft
从LoRA到OFT:Qwen2.5-VL在昇腾910B与4090上的多模态微调实践与踩坑记录本文系统记录了在华为昇腾910B和英伟达4090两种硬件平台上,针对两个不同规模数据集(其中一个为从头构建的签字识别数据集)基于LLamafactory进行Qwen2.5-VL-3B多模态大模型微调的完整实验过程。实验主要探索了LoRA、Full Fine-tuning、Freeze Fine-tuning和OFT四种主流微调方法,并对学习率、训练轮数、LoRA秩、批处理大小、精度类型等数十个超参数进行了系统性对比测试,并在此过程中解决Oft无法正常推理和测试等问题。
yubin12774086295 天前
llamafactory·qwen模型
llamafactory调试代码由ai生成,本地调试通过。llamafactory会自动将模型下载到cache路径下,例如:/home/work/.cache/modelscope/hub/models/Qwen/Qwen3-VL-4B-Instruct
jjjddfvv17 天前
windows·python·深度学习·神经网络·微调·audiolm·llamafactory
超级简单启动llamafactory!先去官网找到llama_factory项目地址windows用户:打开release目录:Releases · hiyouga/LlamaFactory
郭庆汝20 天前
大模型微调·llamafactory
大模型-微调相关内容相关概念:LlamaFactory框架安装:项目github官网下载地址:官方建议依赖版本:根据上述官方依赖版本,我采用python版本是3.11,torch==2.5.0对应的cuda版本是11.8,具体如下:
Yeliang Wu2 个月前
微调·分布式训练·量化·llamafactory
LLaMA-Factory 训练方法原理及实践(Ubuntu 22.04)作者:吴业亮 博客:wuyeliang.blog.csdn.netLLaMA-Factory 是一款轻量级、模块化的大语言模型(LLM)训练/微调框架,支持 LLaMA、Qwen、Baichuan 等主流模型,覆盖从预训练到对齐微调的全流程(Pre-training、SFT、RLHF、DPO、KTO 等)。本文将从原理和Ubuntu 22.04 实操两方面,系统讲解各训练阶段的核心逻辑与落地步骤。
Yeliang Wu2 个月前
大模型·微调·分布式训练·llamafactory·调优算法
LLaMA-Factory 分布式训练实践作者:吴业亮 博客:wuyeliang.blog.csdn.net无需额外配置文件,通过 torchrun 启动即可,LLaMA-Factory 会自动适配 DDP。
Yeliang Wu2 个月前
大模型·微调·分布式训练·llamafactory·调优算法
从原理到部署:LLaMA Factory 量化实战(Ubuntu 22.04)——PTQ/GPTQ/AWQ 等 9 种方法作者:吴业亮 博客:wuyeliang.blog.csdn.net本文系统讲解LLaMA Factory中主流量化方法的核心原理,并基于Ubuntu 22.04环境完成PTQ/GPTQ/AWQ等9种量化方案的实操落地,涵盖环境搭建、命令行实现、关键参数调优,适配LLaMA/LLaMA2/LLaMA3等主流模型。
Yeliang Wu2 个月前
微调·分布式训练·llamafactory·调优算法
LLaMA-Factory 加速技术全解析:FlashAttention/Unsloth/Liger Kernel 原理与 Ubuntu22.04 实践指南作者:吴业亮 博客:wuyeliang.blog.csdn.net传统Transformer注意力计算存在严重的内存访存瓶颈:需要显式存储注意力权重矩阵(O(n²)),且HBM(高带宽内存)读写速度远低于计算单元速度。 FlashAttention通过两大核心优化解决该问题:
Yeliang Wu2 个月前
llamafactory·调优算法
LLaMA-Factory 主流调优算法详解作者:吴业亮 博客:wuyeliang.blog.csdn.netLLaMA-Factory 是一站式大语言模型(LLM)微调框架,支持多种参数高效调优(PEFT)和全参数调优算法,适配不同算力、精度和任务场景。本文详细解析其中核心的 Full Parameter Fine-tuning、Freeze、LoRA、Galore、BAdam 五种调优算法的原理、适用场景、实现逻辑及优缺点。
Yeliang Wu2 个月前
linux·ubuntu·llama·评估·llamafactory
LLaMA-Factory 模型评估理论与实战:基于 Ubuntu 22.04 的系统化指南在开始实践前,理解评估指标背后的逻辑至关重要。通用能力评估指标特定任务评估指标以下是两种主流的部署方式,Docker方式能最大程度避免环境冲突,推荐使用。
Yeliang Wu2 个月前
fsdp·llamafactory
基于FSDP的LLaMA-Factory大模型高效训练指南作者:吴业亮 博客:wuyeliang.blog.csdn.netLLaMA-Factory结合FSDP(Fully Sharded Data Parallel,全分片数据并行)是当前训练大规模语言模型的一项重要技术。下面我将为你梳理其核心原理、关键配置、完整流程以及它与其他方案的对比。
Yeliang Wu2 个月前
量化·llamafactory
Ubuntu 22.04 上的 LLaMA Factory 量化实践:bitsandbytes、GPTQ与AWQ详解作者:吴业亮 博客:wuyeliang.blog.csdn.net模型量化的本质是将神经网络权重和激活值从高精度表示(如32位浮点数,FP32)转换为低精度表示(如8位整数,INT8,或4位整数,INT4)。这种转换并非简单的截断,而是通过一系列数学变换,在尽可能保持模型性能的同时,大幅减少模型体积和计算资源消耗。
Yeliang Wu2 个月前
微调·llamafactory·deepseed
Ubuntu 22.04 上运用LLaMA Factory与DeepSpeed进行高效模型训练作者:吴业亮 博客:wuyeliang.blog.csdn.netDeepSpeed是微软开发的深度学习优化库,专为大规模模型训练而设计。其核心在于解决内存瓶颈和提升训练效率两大挑战。在LLaMA Factory框架中集成DeepSpeed可以显著降低显存占用,使得在有限硬件资源上训练超大规模模型成为可能。
Yeliang Wu2 个月前
微调·ddp·llamafactory
LLaMA Factory DDP并行训练全解析:从核心原理到Ubuntu 22.04实践作者:吴业亮 博客:wuyeliang.blog.csdn.netDDP是PyTorch生态中用于大规模模型训练的核心并行技术。它的核心原理是将训练数据拆分到多个GPU上,每个设备独立完成前向传播与反向传播计算,再通过梯度同步机制保证所有设备上的模型参数一致性。在理想状态下,这种架构可以实现训练速度的线性提升(即使用N张GPU时,训练速度提升至近N倍)。
Yeliang Wu2 个月前
loss·llamafactory
LLaMA Factory训练可视化管理:Loss曲线解析与性能优化作者:吴业亮 博客:wuyeliang.blog.csdn.net在日常的大模型微调工作中,你是否经常遇到这些困扰:训练过程像个黑盒子,不知道模型到底学到了什么;损失曲线突然异常,却找不到问题根源;多轮实验参数混乱,无法有效对比效果?
@鱼香肉丝没有鱼2 个月前
分布式·大模型微调·xtuner·llamafactory
大模型分布式微调 & Xtuner我们传统意义上把分布式微调叫做多卡训练,多卡训练干嘛用的呢?其实它是为了解决两个问题:显存不足的问题;
it&s me3 个月前
ai·llamafactory
llamafactory lora体验
it&s me3 个月前
ai·1024程序员节·llamafactory
EulerOS(NPU)安装llamafactory也可以参考llamafactory微调
wangshuo(24考研上岸版)7 个月前
llamafactory·昇腾npu·npu微调qwen3
基于昇腾NPU部署llamafactory单机多卡微调Qwen3教程华为云首页 点击右上角控制台点击搜索框->搜索“ModelArts”->选择AI开发平台ModelArts->进入平台后点击开发者空间
SpikeKing8 个月前
人工智能·llm·llamafactory
LLM - LlamaFactory 的大模型推理 踩坑记录欢迎关注我的CSDN:https://spike.blog.csdn.net/ 本文地址:https://spike.blog.csdn.net/article/details/148538165