微调

viperrrrrrrrrr76 天前
微调·rlhf
RLHF微调场景🍋🍋AI学习🍋🍋🔥系列专栏: 👑哲学语录: 用力所能及,改变世界。 💖如果觉得博主的文章还不错的话,请点赞👍+收藏⭐️+留言📝支持一下博主哦🤞
core51212 天前
微调·qwen·unsloth·grpo
【实战】使用 Unsloth 与 GRPO 微调 Qwen2.5 模型在当前的大模型(LLM)领域,如何让模型具备更强的逻辑推理能力(Chain-of-Thought, CoT)是一个热门话题。DeepSeek-R1 等模型的成功证明了**强化学习(RL)**在提升推理能力方面的巨大潜力。
core51212 天前
人工智能·微调·qwen·unsloth·vl
【实战】用 Unsloth 微调 Qwen2.5-VL 构建“汽车保险查勘” AI 专家在多模态大模型(LMM)爆发的今天,Qwen2.5-VL 凭借其强大的视觉理解能力成为了开源界的佼佼者。然而,通用模型在特定垂直领域(如医疗影像、工业质检、保险理赔)的表现往往难以达到生产级要求。
Yeliang Wu13 天前
微调·多模态·训练·ms-swift
基于ms-swift框架微调多模态模型(Ubuntu22.04)作者:吴业亮 博客:wuyeliang.blog.csdn.net本文从核心原理到实操步骤,完整讲解基于微软ms-swift(ModelScope Swift)框架在Ubuntu22.04系统上微调多模态模型(如Qwen-VL、LLaVA、MiniCPM-V等)的全流程。
Yeliang Wu13 天前
微调·embedding·训练·ms-swift
基于 ms-swift 框架微调 Embedding 模型(Ubuntu22.04):从原理到实践作者:吴业亮 博客:wuyeliang.blog.csdn.netEmbedding模型的核心是将文本转化为低维稠密向量,使语义相似的文本向量距离更近、语义相异的更远。微调的目标是让预训练Embedding模型适配特定领域/任务(如金融、医疗文本相似度匹配),核心逻辑是:
Yeliang Wu14 天前
微调·训练·unsloth
Unsloth 从原理到实践(基于Ubuntu 22.04)作者:吴业亮 博客:wuyeliang.blog.csdn.netUnsloth 是一款面向大语言模型(LLM)的高效微调框架,主打低资源占用、超高训练速度,核心优化了 QLoRA/LoRA 微调流程,适配 Ubuntu 22.04 等Linux环境,支持 Llama、Mistral、Phi、Gemma 等主流开源模型。本文从原理到全流程实践,覆盖环境搭建、数据集处理、微调、模型合并、量化、评测、监控等核心环节。
赋范大模型技术社区15 天前
大模型·微调·sft·模型训练·rl
大模型训练的“最后一公里”:为什么强化学习(RL)不可或缺?训练一个出色的大语言模型(LLM),如同培养一个孩子从呱呱坠地到成长为社会精英,需要经历循序渐进的几个核心阶段。我们可以将其类比为一个人的成长历程:
flying_131416 天前
语言模型·llm·微调·推荐系统·对比学习·notellm·推荐大模型
推荐大模型系列-NoteLLM: A Retrievable Large Language Model for Note Recommendation(一)目录一、摘要二、介绍三、相关工作I2I 推荐技术概述内容驱动的I2I推荐大语言模型(LLMs)的应用潜力
Yeliang Wu16 天前
大模型·微调·xtuner
XTuner大模型微调实战指南:核心原理与Ubuntu 22.04全流程详解作者:吴业亮 博客:wuyeliang.blog.csdn.netXTuner 是由上海人工智能实验室开发的开源工具,专注于大语言模型(LLM)的高效微调。它支持在几乎所有GPU(包括仅8GB显存的设备)上对LLM进行预训练或微调,甚至能处理7B规模的模型。秉承“开箱即用”的设计理念,XTuner 提供了丰富的预设配置与直观的命令行接口,大幅降低使用门槛。
Yeliang Wu16 天前
大模型·微调·调优算法
Transformers 微调预训练模型:原理到实践(Ubuntu22.04 + Conda)作者:吴业亮 博客:wuyeliang.blog.csdn.netTransformers模型的优势在于“通用预训练+任务特定微调”:
Yeliang Wu17 天前
微调·分布式训练·量化·llamafactory
LLaMA-Factory 训练方法原理及实践(Ubuntu 22.04)作者:吴业亮 博客:wuyeliang.blog.csdn.netLLaMA-Factory 是一款轻量级、模块化的大语言模型(LLM)训练/微调框架,支持 LLaMA、Qwen、Baichuan 等主流模型,覆盖从预训练到对齐微调的全流程(Pre-training、SFT、RLHF、DPO、KTO 等)。本文将从原理和Ubuntu 22.04 实操两方面,系统讲解各训练阶段的核心逻辑与落地步骤。
Yeliang Wu17 天前
大模型·微调·分布式训练·llamafactory·调优算法
LLaMA-Factory 分布式训练实践作者:吴业亮 博客:wuyeliang.blog.csdn.net无需额外配置文件,通过 torchrun 启动即可,LLaMA-Factory 会自动适配 DDP。
Yeliang Wu17 天前
大模型·微调·分布式训练·llamafactory·调优算法
从原理到部署:LLaMA Factory 量化实战(Ubuntu 22.04)——PTQ/GPTQ/AWQ 等 9 种方法作者:吴业亮 博客:wuyeliang.blog.csdn.net本文系统讲解LLaMA Factory中主流量化方法的核心原理,并基于Ubuntu 22.04环境完成PTQ/GPTQ/AWQ等9种量化方案的实操落地,涵盖环境搭建、命令行实现、关键参数调优,适配LLaMA/LLaMA2/LLaMA3等主流模型。
Yeliang Wu17 天前
微调·分布式训练·llamafactory·调优算法
LLaMA-Factory 加速技术全解析:FlashAttention/Unsloth/Liger Kernel 原理与 Ubuntu22.04 实践指南作者:吴业亮 博客:wuyeliang.blog.csdn.net传统Transformer注意力计算存在严重的内存访存瓶颈:需要显式存储注意力权重矩阵(O(n²)),且HBM(高带宽内存)读写速度远低于计算单元速度。 FlashAttention通过两大核心优化解决该问题:
Yeliang Wu18 天前
微调·llamafactory·deepseed
Ubuntu 22.04 上运用LLaMA Factory与DeepSpeed进行高效模型训练作者:吴业亮 博客:wuyeliang.blog.csdn.netDeepSpeed是微软开发的深度学习优化库,专为大规模模型训练而设计。其核心在于解决内存瓶颈和提升训练效率两大挑战。在LLaMA Factory框架中集成DeepSpeed可以显著降低显存占用,使得在有限硬件资源上训练超大规模模型成为可能。
Yeliang Wu18 天前
微调·ddp·llamafactory
LLaMA Factory DDP并行训练全解析:从核心原理到Ubuntu 22.04实践作者:吴业亮 博客:wuyeliang.blog.csdn.netDDP是PyTorch生态中用于大规模模型训练的核心并行技术。它的核心原理是将训练数据拆分到多个GPU上,每个设备独立完成前向传播与反向传播计算,再通过梯度同步机制保证所有设备上的模型参数一致性。在理想状态下,这种架构可以实现训练速度的线性提升(即使用N张GPU时,训练速度提升至近N倍)。
Yeliang Wu18 天前
微调·peft
PEFT 2.0进阶:Ubuntu服务器上的高效微调策略与优化作者:吴业亮 博客:wuyeliang.blog.csdn.net参数高效微调(Parameter-Efficient Fine-Tuning, PEFT)是一种针对预训练模型(尤其是大语言模型)的微调策略,其核心思想是避免对模型的全部参数进行更新,而是仅调整一小部分参数或引入少量额外参数,从而大幅降低计算和存储成本,同时保持模型的泛化能力。
温柔哥`1 个月前
ai·微调·数据集·视觉语言大模型·皮肤病诊断大模型·nature 子刊·skingpt-4
【Nature Communications‘24‘06】预训练多模态大语言模型通过 SkinGPT-4 提升皮肤病学诊断能力Pre-trained multimodal large language model enhances dermatological diagnosis using SkinGPT-4 阿卜杜拉国王科技大学(King Abdullah University of Science and Technology, KAUST) Nature communications (Accepted: 26 June 2024) 补充材料:https://www.nature.com/articles/s41467-
PKNLP1 个月前
微调·nlp
17.模型微调——微调数据集构建一般来说,一个经过指令格式化的数据实例包括任务描述(也称为指令)、任务输入、任务输出以及可选的示例。公开的数据集:https://www.waytoagi.com/zh/question/51049
胡耀超2 个月前
人工智能·python·ai·架构·大模型·微调·agi
通往AGI的模块化路径:一个可能的技术架构(同时解答微调与RAG之争)最近在思考一个问题:AGI(通用人工智能)一定要是一个超大的单体模型吗?2025年8月,GPT-5正式发布,Claude Opus 4.1紧随其后,国产的Kimi K2(1T总参数)也开源上线。整个行业似乎默认了一个路线——把模型做得越来越大,参数越来越多,训练数据越来越全。但这真的是唯一的路吗?或者说,这是最优的路吗?