技术栈
微调
Code_流苏
1 天前
python
·
深度学习
·
微调
·
resnet
·
迁移学习
·
预训练模型
·
超参数优化
《Python星球日记》 第55天:迁移学习与预训练模型
名人说:路漫漫其修远兮,吾将上下而求索。—— 屈原《离骚》 创作者:Code_流苏(CSDN)(一个喜欢古诗词和编程的Coder😊)
Silence4Allen
1 天前
人工智能
·
大模型
·
微调
·
xtuner
·
llamafactory
大模型微调终极方案:LoRA、QLoRA原理详解与LLaMA-Factory、Xtuner实战对比
微调(Fine-tuning)是深度学习中的一种常见方法,它通常用于在预训练模型的基础上进行进一步的训练,以适应特定的任务。微调的主要目的是利用预训练模型已经学习到的通用知识,从而提高模型在特定任务上的性能。常见的微调框架有 LLaMA-Factory 和 XTuner 等。
AI掘金
3 天前
微调
·
aigc
·
蒸馏
·
ai应用
·
deepseek
·
小模型推理
DeepSeek实战--蒸馏
知识蒸馏(Knowledge Distillation)最早由Hinton等人在2015年提出,主要用于压缩模型。
joexk
7 天前
微调
·
triton
·
llamafactory
·
no module
·
triton.ops
llamafactory微调模型报错ModuleNotFoundError: No module named ‘triton.ops‘
在阿里云Notebook上使用llamafactory微调Meta-Llama-3-8B-Instruct模型报错ModuleNotFoundError: No module named ‘triton.ops’
水煮蛋不加蛋
7 天前
人工智能
·
机器学习
·
ai
·
大模型
·
llm
·
微调
·
迁移学习
从 Pretrain 到 Fine-tuning:大模型迁移学习的核心原理剖析
在人工智能领域,大模型的出现掀起了一场技术革命。这些拥有海量参数的模型,如 GPT-4、PaLM 等,在众多任务上展现出了惊人的能力。然而,训练一个大模型需要耗费巨大的计算资源和时间,而且直接让大模型处理特定领域的任务往往效果不佳。这时,迁移学习成为了关键技术,它让大模型能够高效地适应不同的任务和领域。本文将深入剖析大模型迁移学习中 Pretrain(预训练)和 Fine-tuning(微调)的核心原理。
青橘MATLAB学习
15 天前
人工智能
·
深度学习
·
微调
·
迁移学习
·
预训练
·
梯度消失
·
模型复用
深度学习中的预训练与微调:从基础概念到实战应用全解析
本文系统解析深度学习中预训练与微调技术,涵盖核心概念、技术优势、模型复用策略、与迁移学习的结合方式,以及微调过程中网络参数更新机制、模型状态分类等内容。同时深入分析深层神经网络训练难点如梯度消失/爆炸问题,为模型优化提供理论支撑。适合深度学习开发者及研究者快速掌握迁移学习核心技术。 关键词:预训练;微调;迁移学习;梯度消失;模型复用
Panesle
16 天前
人工智能
·
微调
·
蒸馏
大模型微调与蒸馏的差异性与相似性分析
大模型微调 在预训练大模型基础上,通过少量标注数据调整参数,使模型适应特定任务需求。核心目标是提升模型在特定领域的性能,例如医疗影像分析或金融预测。该技术聚焦于垂直场景的精度优化,通常需要任务相关的标注数据支持。
AI大模型顾潇
18 天前
人工智能
·
算法
·
机器学习
·
数据挖掘
·
大模型
·
微调
·
ai大模型
[特殊字符] 大模型对话风格微调项目实战——模型篇 [特殊字符]✨
🎯 背景介绍🔍 这篇文章的任务🤖 模型选型📊 模型评测⚙️ 模型训练🔄 模型转换🧪 模型训练效果评估
AI大模型顾潇
21 天前
前端
·
人工智能
·
llm
·
微调
·
prompt
·
编程
·
ai大模型
[特殊字符] Prompt如何驱动大模型对本地文件实现自主变更:Cline技术深度解析
Cline通过精心设计的prompt系统,使大模型能够像人类开发者一样操作本地文件系统。以下是其核心机制:
Jackilina_Stone
1 个月前
人工智能
·
深度学习
·
大模型
·
微调
【微调大模型】使用LLaMA-Factory进行监督微调 Qwen2.5
本文使用LLaMA-Factory进行监督微调 Qwen2.5。此监督微调(SFT)脚本具有以下特点:
深度学习算法与自然语言处理
1 个月前
深度学习
·
算法
·
大模型
·
微调
·
transformer
·
面试题
单卡4090微调大模型 DeepSeek-R1-32B
之前文章同样的方法,也可以在 24G 显存的单卡 4090 上微调训练 deepseek-ai/DeepSeek-R1-Distill-Qwen-32B;即使该模型的权重文件大小已经达到 62G,这是因为 unsloth 和 lora 的量化微调和部分参数微调优化可以大幅节约显存占用。
Jackilina_Stone
1 个月前
大模型
·
微调
·
llama
【微调大模型】轻松微调百余种大模型:LLaMA-Factory
github: https://github.com/hiyouga/LLaMA-Factory目录项目特色
Andy_shenzl
1 个月前
lora
·
微调
·
swift
16、Swift框架微调实战(1)-自我认知数据LORA微调
ms-SWIFT GitHub项目主页: https://github.com/modelscope/swift
_Meilinger_
2 个月前
大模型
·
llm
·
微调
·
llama
·
大模型微调
·
llama-factory
·
unsloth
大模型微调|使用 LLaMA-Factory 微调 Llama3-8B-Chinese-Chat 完成知识问答任务
前言:本篇博客分享如何基于LLaMA-Factory使用现有金融数据集实现LLaMA3的微调,以完成金融领域的知识问答任务。
玩电脑的辣条哥
2 个月前
人工智能
·
lora
·
微调
大模型LoRA微调训练原理是什么?
LoRA大模型LoRA微调训练原理是什么?通过 LoRA 微调,你可以在保持模型性能的同时,显著降低微调的计算成本。
CS_木成河
3 个月前
人工智能
·
深度学习
·
语言模型
·
微调
·
预训练
【深度学习】预训练和微调概述
预训练和微调是现代深度学习模型训练中的两个关键步骤,它们通常是一个 预训练-微调 (Pretrain-Finetune) 流程的不同阶段。两者相辅相成,共同帮助模型从通用的知识到特定任务的适应。
伊织code
3 个月前
开源
·
lora
·
大模型
·
llm
·
微调
·
mllm
开源大模型食用指南 - 微调、部署 LLM、MLLM
《开源大模型食用指南》针对中国宝宝量身打造的基于Linux环境快速微调(全参数/Lora)、部署国内外开源大模型(LLM)/多模态大模型(MLLM)教程
engchina
3 个月前
人工智能
·
微调
·
llama
·
llama-factory
使用LLaMA-Factory对AI进行认知的微调
本文将介绍如何使用LLaMA-Factory对AI进行微调,使其具备“忍者”的认知,并认知其是由“富士电视台”开发的。
uncle_ll
4 个月前
人工智能
·
gpt
·
chatgpt
·
llm
·
微调
ChatGPT大模型极简应用开发-CH4-GPT-4 和 ChatGPT 的高级技巧
回顾聊天模型的chat_completion 函数:该函数接收提示词并在终端中显示补全结果。model 和 temperature是两个可选特征,分别被默认设置为 gpt-4 和 0。