unsloth

core5122 天前
微调·qwen·unsloth·grpo
【实战】使用 Unsloth 与 GRPO 微调 Qwen2.5 模型在当前的大模型(LLM)领域,如何让模型具备更强的逻辑推理能力(Chain-of-Thought, CoT)是一个热门话题。DeepSeek-R1 等模型的成功证明了**强化学习(RL)**在提升推理能力方面的巨大潜力。
core5122 天前
人工智能·微调·qwen·unsloth·vl
【实战】用 Unsloth 微调 Qwen2.5-VL 构建“汽车保险查勘” AI 专家在多模态大模型(LMM)爆发的今天,Qwen2.5-VL 凭借其强大的视觉理解能力成为了开源界的佼佼者。然而,通用模型在特定垂直领域(如医疗影像、工业质检、保险理赔)的表现往往难以达到生产级要求。
Yeliang Wu3 天前
微调·训练·unsloth
Unsloth 从原理到实践(基于Ubuntu 22.04)作者:吴业亮 博客:wuyeliang.blog.csdn.netUnsloth 是一款面向大语言模型(LLM)的高效微调框架,主打低资源占用、超高训练速度,核心优化了 QLoRA/LoRA 微调流程,适配 Ubuntu 22.04 等Linux环境,支持 Llama、Mistral、Phi、Gemma 等主流开源模型。本文从原理到全流程实践,覆盖环境搭建、数据集处理、微调、模型合并、量化、评测、监控等核心环节。
缘友一世8 天前
llm·模型微调·unsloth·deepseek
Unsloth高效微调实战:基于DeepSeek-R1-Distill-Llama-8B与医疗R1数据SFTTrainer(来自 trl 库):提供 监督微调(SFT) 和 强化学习(RLHF) 相关的功能,主要用于 有监督微调(Supervised Fine-Tuning),适用于 LoRA 等低秩适配微调方式。
_Meilinger_9 个月前
大模型·llm·微调·llama·大模型微调·llama-factory·unsloth
大模型微调|使用 LLaMA-Factory 微调 Llama3-8B-Chinese-Chat 完成知识问答任务前言:本篇博客分享如何基于LLaMA-Factory使用现有金融数据集实现LLaMA3的微调,以完成金融领域的知识问答任务。
熊文豪9 个月前
lora·huggingface·ollama·unsloth·googlecolab·ai微调·医疗ai
轻松微调大模型:利用 Colab 和 Unsloth 实现高效训练大型语言模型(LLM)如 Llama、Mistral 等在通用任务上表现惊艳,但要让它们适配特定场景(比如医疗问答、算命预测),就需要微调。Google Colab 提供免费的 GPU 资源,而 Unsloth 是一个高效的微调工具,能大幅降低显存需求,让普通用户也能在云端完成训练。这篇文章将带你一步步完成从零到部署的全过程。
冀辉9 个月前
人工智能·sft·大模型微调·unsloth·deepseek蒸馏模型微调
Ubuntu2204下使用NVIDIA GeForce RTX 4090进行DeepSeek-R1-Distill-Llama-8B模型微调使用unsloth,可以方便地对大模型进行微调。以微调DeepSeek-R1-Distill-Llama-8B为例:
cxr8281 年前
llama·cesium·unsloth
如何制定有效的微调策略制定有效的微调策略是将开源大模型(如 Qwen2.5-coder)成功应用于特定领域(例如基于 Cesium 框架开发)的关键步骤。以下将从多个专业维度深入、系统、详细地阐述微调策略的制定方法,包括微调目标的明确、数据策略、模型调整方法、训练流程优化、评估与验证策略等方面。
drbool1 年前
人工智能·llama·unsloth
Unsloth微调环境搭建与LLaMA 3.1-8B模型微调实践指南本文将详细介绍如何使用Unsloth框架进行LLaMA 3.1-8B模型的微调,帮助您快速构建微调环境,并了解微调流程的基本步骤。本教程适合初学者,旨在帮助您在短时间内实现自己的专属模型微调。对于更复杂的微调参数和细节设置,将在后续文章中进一步阐述。
伊织code1 年前
大模型·微调·sft·llama·gguf·unsloth
Unsloth 微调 Llama 3本文参考: https://colab.research.google.com/drive/135ced7oHytdxu3N2DNe1Z0kqjyYIkDXp 改编自:https://blog.csdn.net/qq_38628046/article/details/138906504
我是有底线的