技术栈
llamafactory
Yeliang Wu
12 天前
微调
·
分布式训练
·
量化
·
llamafactory
LLaMA-Factory 训练方法原理及实践(Ubuntu 22.04)
作者:吴业亮 博客:wuyeliang.blog.csdn.netLLaMA-Factory 是一款轻量级、模块化的大语言模型(LLM)训练/微调框架,支持 LLaMA、Qwen、Baichuan 等主流模型,覆盖从预训练到对齐微调的全流程(Pre-training、SFT、RLHF、DPO、KTO 等)。本文将从原理和Ubuntu 22.04 实操两方面,系统讲解各训练阶段的核心逻辑与落地步骤。
Yeliang Wu
12 天前
大模型
·
微调
·
分布式训练
·
llamafactory
·
调优算法
LLaMA-Factory 分布式训练实践
作者:吴业亮 博客:wuyeliang.blog.csdn.net无需额外配置文件,通过 torchrun 启动即可,LLaMA-Factory 会自动适配 DDP。
Yeliang Wu
12 天前
大模型
·
微调
·
分布式训练
·
llamafactory
·
调优算法
从原理到部署:LLaMA Factory 量化实战(Ubuntu 22.04)——PTQ/GPTQ/AWQ 等 9 种方法
作者:吴业亮 博客:wuyeliang.blog.csdn.net本文系统讲解LLaMA Factory中主流量化方法的核心原理,并基于Ubuntu 22.04环境完成PTQ/GPTQ/AWQ等9种量化方案的实操落地,涵盖环境搭建、命令行实现、关键参数调优,适配LLaMA/LLaMA2/LLaMA3等主流模型。
Yeliang Wu
12 天前
微调
·
分布式训练
·
llamafactory
·
调优算法
LLaMA-Factory 加速技术全解析:FlashAttention/Unsloth/Liger Kernel 原理与 Ubuntu22.04 实践指南
作者:吴业亮 博客:wuyeliang.blog.csdn.net传统Transformer注意力计算存在严重的内存访存瓶颈:需要显式存储注意力权重矩阵(O(n²)),且HBM(高带宽内存)读写速度远低于计算单元速度。 FlashAttention通过两大核心优化解决该问题:
Yeliang Wu
13 天前
llamafactory
·
调优算法
LLaMA-Factory 主流调优算法详解
作者:吴业亮 博客:wuyeliang.blog.csdn.netLLaMA-Factory 是一站式大语言模型(LLM)微调框架,支持多种参数高效调优(PEFT)和全参数调优算法,适配不同算力、精度和任务场景。本文详细解析其中核心的 Full Parameter Fine-tuning、Freeze、LoRA、Galore、BAdam 五种调优算法的原理、适用场景、实现逻辑及优缺点。
Yeliang Wu
13 天前
linux
·
ubuntu
·
llama
·
评估
·
llamafactory
LLaMA-Factory 模型评估理论与实战:基于 Ubuntu 22.04 的系统化指南
在开始实践前,理解评估指标背后的逻辑至关重要。通用能力评估指标特定任务评估指标以下是两种主流的部署方式,Docker方式能最大程度避免环境冲突,推荐使用。
Yeliang Wu
13 天前
fsdp
·
llamafactory
基于FSDP的LLaMA-Factory大模型高效训练指南
作者:吴业亮 博客:wuyeliang.blog.csdn.netLLaMA-Factory结合FSDP(Fully Sharded Data Parallel,全分片数据并行)是当前训练大规模语言模型的一项重要技术。下面我将为你梳理其核心原理、关键配置、完整流程以及它与其他方案的对比。
Yeliang Wu
13 天前
量化
·
llamafactory
Ubuntu 22.04 上的 LLaMA Factory 量化实践:bitsandbytes、GPTQ与AWQ详解
作者:吴业亮 博客:wuyeliang.blog.csdn.net模型量化的本质是将神经网络权重和激活值从高精度表示(如32位浮点数,FP32)转换为低精度表示(如8位整数,INT8,或4位整数,INT4)。这种转换并非简单的截断,而是通过一系列数学变换,在尽可能保持模型性能的同时,大幅减少模型体积和计算资源消耗。
Yeliang Wu
13 天前
微调
·
llamafactory
·
deepseed
Ubuntu 22.04 上运用LLaMA Factory与DeepSpeed进行高效模型训练
作者:吴业亮 博客:wuyeliang.blog.csdn.netDeepSpeed是微软开发的深度学习优化库,专为大规模模型训练而设计。其核心在于解决内存瓶颈和提升训练效率两大挑战。在LLaMA Factory框架中集成DeepSpeed可以显著降低显存占用,使得在有限硬件资源上训练超大规模模型成为可能。
Yeliang Wu
13 天前
微调
·
ddp
·
llamafactory
LLaMA Factory DDP并行训练全解析:从核心原理到Ubuntu 22.04实践
作者:吴业亮 博客:wuyeliang.blog.csdn.netDDP是PyTorch生态中用于大规模模型训练的核心并行技术。它的核心原理是将训练数据拆分到多个GPU上,每个设备独立完成前向传播与反向传播计算,再通过梯度同步机制保证所有设备上的模型参数一致性。在理想状态下,这种架构可以实现训练速度的线性提升(即使用N张GPU时,训练速度提升至近N倍)。
Yeliang Wu
13 天前
loss
·
llamafactory
LLaMA Factory训练可视化管理:Loss曲线解析与性能优化
作者:吴业亮 博客:wuyeliang.blog.csdn.net在日常的大模型微调工作中,你是否经常遇到这些困扰:训练过程像个黑盒子,不知道模型到底学到了什么;损失曲线突然异常,却找不到问题根源;多轮实验参数混乱,无法有效对比效果?
@鱼香肉丝没有鱼
15 天前
分布式
·
大模型微调
·
xtuner
·
llamafactory
大模型分布式微调 & Xtuner
我们传统意义上把分布式微调叫做多卡训练,多卡训练干嘛用的呢?其实它是为了解决两个问题:显存不足的问题;
it&s me
2 个月前
ai
·
llamafactory
llamafactory lora体验
it&s me
2 个月前
ai
·
1024程序员节
·
llamafactory
EulerOS(NPU)安装llamafactory
也可以参考llamafactory微调
wangshuo(24考研上岸版)
6 个月前
llamafactory
·
昇腾npu
·
npu微调qwen3
基于昇腾NPU部署llamafactory单机多卡微调Qwen3教程
华为云首页 点击右上角控制台点击搜索框->搜索“ModelArts”->选择AI开发平台ModelArts->进入平台后点击开发者空间
SpikeKing
6 个月前
人工智能
·
llm
·
llamafactory
LLM - LlamaFactory 的大模型推理 踩坑记录
欢迎关注我的CSDN:https://spike.blog.csdn.net/ 本文地址:https://spike.blog.csdn.net/article/details/148538165
风筝超冷
7 个月前
llamafactory
LLaMaFactory - 支持的模型和模板 && 常用命令
激活LLaMaFactory环境,进入LLaMaFactory目录下载模型使用 LLaMA-Factory 工具启动一个基于 Qwen3-0.6B 模型的网页聊天界面。
为啥全要学
7 个月前
llama
·
大模型微调
·
llamafactory
LLaMA-Factory 微调 Qwen2-7B-Instruct
将训练数据放在 LLaMA-Factory/data/fintech.json 并且修改数据注册文件:LLaMA-Factory/data/dataset_info.json
Silence4Allen
7 个月前
人工智能
·
大模型
·
微调
·
xtuner
·
llamafactory
大模型微调终极方案:LoRA、QLoRA原理详解与LLaMA-Factory、Xtuner实战对比
微调(Fine-tuning)是深度学习中的一种常见方法,它通常用于在预训练模型的基础上进行进一步的训练,以适应特定的任务。微调的主要目的是利用预训练模型已经学习到的通用知识,从而提高模型在特定任务上的性能。常见的微调框架有 LLaMA-Factory 和 XTuner 等。
joexk
7 个月前
微调
·
triton
·
llamafactory
·
no module
·
triton.ops
llamafactory微调模型报错ModuleNotFoundError: No module named ‘triton.ops‘
在阿里云Notebook上使用llamafactory微调Meta-Llama-3-8B-Instruct模型报错ModuleNotFoundError: No module named ‘triton.ops’