llamafactory

大模型——LlamaFactory利用情感对话数据集微调Qwen2.5-32B-Instruct大模型基本思路是：利用调用大模型（DeepSeek_R1_0528_Qwen3_8B）生成带有对应情感特征的热点内容对话数据集，然后过滤清洗数据集，用该数据集结合LlamaFactory微调Qwen2.5-32B-Instruct大模型

大模型——LlamaFactory微调多模态大模型流程记录提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档cd data_create/backend目录下执行如下操作

从LoRA到OFT：Qwen2.5-VL在昇腾910B与4090上的多模态微调实践与踩坑记录本文系统记录了在华为昇腾910B和英伟达4090两种硬件平台上，针对两个不同规模数据集（其中一个为从头构建的签字识别数据集）基于LLamafactory进行Qwen2.5-VL-3B多模态大模型微调的完整实验过程。实验主要探索了LoRA、Full Fine-tuning、Freeze Fine-tuning和OFT四种主流微调方法，并对学习率、训练轮数、LoRA秩、批处理大小、精度类型等数十个超参数进行了系统性对比测试，并在此过程中解决Oft无法正常推理和测试等问题。

yubin1277408629

llamafactory调试代码由ai生成，本地调试通过。llamafactory会自动将模型下载到cache路径下，例如：/home/work/.cache/modelscope/hub/models/Qwen/Qwen3-VL-4B-Instruct

超级简单启动llamafactory！先去官网找到llama_factory项目地址windows用户：打开release目录：Releases · hiyouga/LlamaFactory

大模型-微调相关内容相关概念：LlamaFactory框架安装：项目github官网下载地址：官方建议依赖版本：根据上述官方依赖版本，我采用python版本是3.11，torch==2.5.0对应的cuda版本是11.8，具体如下：

LLaMA-Factory 训练方法原理及实践（Ubuntu 22.04）作者：吴业亮博客：wuyeliang.blog.csdn.netLLaMA-Factory 是一款轻量级、模块化的大语言模型（LLM）训练/微调框架，支持 LLaMA、Qwen、Baichuan 等主流模型，覆盖从预训练到对齐微调的全流程（Pre-training、SFT、RLHF、DPO、KTO 等）。本文将从原理和Ubuntu 22.04 实操两方面，系统讲解各训练阶段的核心逻辑与落地步骤。

LLaMA-Factory 分布式训练实践作者：吴业亮博客：wuyeliang.blog.csdn.net无需额外配置文件，通过 torchrun 启动即可，LLaMA-Factory 会自动适配 DDP。

从原理到部署：LLaMA Factory 量化实战（Ubuntu 22.04）——PTQ/GPTQ/AWQ 等 9 种方法作者：吴业亮博客：wuyeliang.blog.csdn.net本文系统讲解LLaMA Factory中主流量化方法的核心原理，并基于Ubuntu 22.04环境完成PTQ/GPTQ/AWQ等9种量化方案的实操落地，涵盖环境搭建、命令行实现、关键参数调优，适配LLaMA/LLaMA2/LLaMA3等主流模型。

LLaMA-Factory 加速技术全解析：FlashAttention/Unsloth/Liger Kernel 原理与 Ubuntu22.04 实践指南作者：吴业亮博客：wuyeliang.blog.csdn.net传统Transformer注意力计算存在严重的内存访存瓶颈：需要显式存储注意力权重矩阵（O(n²)），且HBM（高带宽内存）读写速度远低于计算单元速度。 FlashAttention通过两大核心优化解决该问题：

LLaMA-Factory 主流调优算法详解作者：吴业亮博客：wuyeliang.blog.csdn.netLLaMA-Factory 是一站式大语言模型（LLM）微调框架，支持多种参数高效调优（PEFT）和全参数调优算法，适配不同算力、精度和任务场景。本文详细解析其中核心的 Full Parameter Fine-tuning、Freeze、LoRA、Galore、BAdam 五种调优算法的原理、适用场景、实现逻辑及优缺点。

LLaMA-Factory 模型评估理论与实战：基于 Ubuntu 22.04 的系统化指南在开始实践前，理解评估指标背后的逻辑至关重要。通用能力评估指标特定任务评估指标以下是两种主流的部署方式，Docker方式能最大程度避免环境冲突，推荐使用。

基于FSDP的LLaMA-Factory大模型高效训练指南作者：吴业亮博客：wuyeliang.blog.csdn.netLLaMA-Factory结合FSDP（Fully Sharded Data Parallel，全分片数据并行）是当前训练大规模语言模型的一项重要技术。下面我将为你梳理其核心原理、关键配置、完整流程以及它与其他方案的对比。

Ubuntu 22.04 上的 LLaMA Factory 量化实践：bitsandbytes、GPTQ与AWQ详解作者：吴业亮博客：wuyeliang.blog.csdn.net模型量化的本质是将神经网络权重和激活值从高精度表示（如32位浮点数，FP32）转换为低精度表示（如8位整数，INT8，或4位整数，INT4）。这种转换并非简单的截断，而是通过一系列数学变换，在尽可能保持模型性能的同时，大幅减少模型体积和计算资源消耗。

Ubuntu 22.04 上运用LLaMA Factory与DeepSpeed进行高效模型训练作者：吴业亮博客：wuyeliang.blog.csdn.netDeepSpeed是微软开发的深度学习优化库，专为大规模模型训练而设计。其核心在于解决内存瓶颈和提升训练效率两大挑战。在LLaMA Factory框架中集成DeepSpeed可以显著降低显存占用，使得在有限硬件资源上训练超大规模模型成为可能。

LLaMA Factory DDP并行训练全解析：从核心原理到Ubuntu 22.04实践作者：吴业亮博客：wuyeliang.blog.csdn.netDDP是PyTorch生态中用于大规模模型训练的核心并行技术。它的核心原理是将训练数据拆分到多个GPU上，每个设备独立完成前向传播与反向传播计算，再通过梯度同步机制保证所有设备上的模型参数一致性。在理想状态下，这种架构可以实现训练速度的线性提升（即使用N张GPU时，训练速度提升至近N倍）。

LLaMA Factory训练可视化管理：Loss曲线解析与性能优化作者：吴业亮博客：wuyeliang.blog.csdn.net在日常的大模型微调工作中，你是否经常遇到这些困扰：训练过程像个黑盒子，不知道模型到底学到了什么；损失曲线突然异常，却找不到问题根源；多轮实验参数混乱，无法有效对比效果？

@鱼香肉丝没有鱼

大模型分布式微调 & Xtuner我们传统意义上把分布式微调叫做多卡训练，多卡训练干嘛用的呢？其实它是为了解决两个问题：显存不足的问题；

llamafactory lora体验

EulerOS(NPU)安装llamafactory也可以参考llamafactory微调