微调

Flying pigs~~6 小时前
人工智能·深度学习·lora·大模型·微调·transformer
LoRA 面试完全指南:低秩分解原理 + Transformer 应用关键词:LoRA、低秩分解、参数高效微调、PEFT、TransformerLoRA(Low-Rank Adaptation)是一种参数高效微调方法,通过在预训练模型旁注入可训练的低秩分解矩阵,大幅减少需要训练的参数数量。
Flying pigs~~17 小时前
人工智能·大模型·微调·prompt
大模型Prompt-Tuning技术详解:从入门到进阶一文读懂NLP范式演进、Fine-Tuning与Prompt-Tuning的核心原理随着ChatGPT、GPT-4等大模型的爆火,Prompt-Tuning技术逐渐成为学术界和工业界关注的焦点。本文将系统介绍NLP任务的四种发展范式,深入剖析Fine-Tuning和Prompt-Tuning的核心原理,并带你了解面向超大规模模型的先进微调技术。
乔江seven2 天前
人工智能·深度学习·计算机视觉·微调
【李沐 | 动手学深度学习】 21 计算机视觉:微调目录前言网络架构为什么要进行微调?1 微调详解1.1 微调的核心步骤1.2 常用的微调策略2 代码实现
kylin-运维2 天前
微调·训练·unsloth studio·离线环境
Unsloth Studio 使用问题记录离线环境,官方docker镜像,k8s环境使用手动下载源码https://github.com/ggml-org/llama.cpp传到unsloth内 根据报错日志的路径,创建目录
x_lrong4 天前
微调·部署·昇腾·ascend·llamafactory·qwen3·vllm-ascend
昇腾Ascend环境微调部署Qwen3(LlamaFactory+vLLM-Ascend)环境介绍:GitCode:实例:NPU basic · 1 * NPU 910B · 16v CPU · 64GB
AI、少年郎13 天前
人工智能·python·ai·大模型·微调·大模型训练·minimind
MiniMind 第 4 篇:《数据工程|Tokenizer 训练 + 预训练 / SFT/DPO 全数据集处理》承接上一篇内容:我们拆解了 MiniMind 底层核心架构,吃透了 RMSNorm、SwiGLU、RoPE 三大组件的工程实现与优化逻辑。现在,终于轮到 LLM 最关键的「粮草」—— 数据工程。
博士僧小星16 天前
人工智能·lora·大模型·微调·peft·qlora·prefix tuning
人工智能|大模型——训练——大模型微调全栈指南:从Transformer架构、10+种PEFT原理、流程与实战(全网最详细)本文是一份面向工程落地的大模型参数高效微调(PEFT)深度技术指南。全文覆盖:① 大模型“预训练→微调”两阶段范式本质;② Transformer 架构中各 PEFT 方法的作用位置与数学原理;③ LoRA、QLoRA、Adapter Tuning、Prefix Tuning、Prompt Tuning、P-Tuning v1、P-Tuning v2 共 7 种主流方法的完整技术解构(含公式、结构图示逻辑、参数量级、实证效果);④ 从 PDF 文档→Markdown→QA 数据集→微调训练→监控部署的端到
发光的叮当猫16 天前
人工智能·微调·rag·ai工程
AI工程可能会遇到的一些问题1,检索质量太差,根本没有检索到正确内容原因:embedding不行,相似度算错,语义没对齐。query没有被改写,完全没有上下文,检索失败。
羊小猪~~1 个月前
python·考研·算法·ai·大模型·llm·微调
LLM--SFT简介SFT,监督微调,指在预训练模型的基础上,通过有标注的数据进行下一步训练,使其称为在特定任务上表现良好。
deephub1 个月前
人工智能·深度学习·机器学习·微调·prompt
知识引导上下文优化(KgCoOp):一种解决灾难性遗忘的 Prompt Tuning 机制视觉-语言模型(VLMs)如 CLIP 彻底改变了零样本图像识别的处理方式。这类模型在包含 4 亿个图像-文本对的大规模数据集上进行训练,捕获了海量通用知识,具备了识别未被明确训练过对象的能力。
魔乐社区1 个月前
微调·llama·qwen3.5
在魔乐社区使用llama-factory微调Qwen3.5-4B模型我们依然是搭建一个miniconda可以使用下面的命令验证是否安装成功:显示llamafactory的版本,则表示安装成功
BatmanWayne2 个月前
微调·swift
swift微调记录Qwen3-4b-Thinking-2507ms-swift魔搭社区增送的免费GPU算力(GPU是 A10 24G显存)
yyoc973 个月前
大模型·微调·llama·ollama
Mac基于LLaMA Factory微调模型导入Ollama踩坑记录遇到问题1:ERROR: Package 'llamafactory' requires a different Python: 3.9.6 not in '>=3.11.0'。然后升级到python最高版本3.14解决(不建议选最新版本,后面使用数据集遇到新的问题) 问题2:
TGITCIC3 个月前
自动化·lora·微调·ai训练·训练·大模型训练·大模型ai
垂域大模型评估不再靠“感觉”:用结构化测试集+自动化打分实现效果可量化当前大模型在垂直领域的落地已从“能不能跑”进入“跑得好不好”的阶段。开发者普遍发现,微调一个模型或搭建一套RAG系统并不算最难,真正的瓶颈在于缺乏一套可靠、高效、可复现的评估机制。很多团队依赖人工试用,靠“感觉”判断模型是否变好,这种做法在初期或许可行,但一旦进入迭代优化阶段,主观判断无法支撑工程决策。尤其在企业场景中,业务文档高度专业化,通用评测集(如MMLU、C-Eval)覆盖不足,而人工构造高质量测试集成本极高。更棘手的是,模型可能在训练损失下降的同时,出现知识幻觉、逻辑断裂或通用能力退化等问题,这
爱吃泡芙的小白白3 个月前
微调·fine-tune
深入浅出:Fine-tune(微调)的核心场景、实战方法与避坑指南在人工智能模型日益庞大、数据获取成本高昂的今天,迁移学习中的 Fine-tune(微调) 技术已成为将通用模型“锻造”为领域利器的关键手段。它让我们不必每次都从零开始训练一个模型,而是像一位经验丰富的工匠,对一件近乎完美的半成品进行最后的精雕细琢。无论是让BERT理解晦涩的医学文献,还是让Stable Diffusion学会你独特的画风,微调都扮演着核心角色。
一颗小树x3 个月前
微调·强化学习·vla·流匹配·πrl
【VLA 系列】 πRL | 在线强化学习 | 流匹配 | VLAπRL是一款在线强化学习的VLA框架,适配π0、π0.5等基于流的VLA模型。核心解决 “对数似然计算难” 和 “探索性不足” 两大问题:
YMWM_3 个月前
微调·vla·pi0.5
测试 pi0.5 微调模型指南首先,检查训练是否完成以及模型保存位置:训练完成后,检查点会保存在:如果你的数据集有对应的仿真环境,可以使用 lerobot-eval 命令:
羊城迷鹿3 个月前
大模型·微调·多模态·qwen·llamafactory·oft
从LoRA到OFT:Qwen2.5-VL在昇腾910B与4090上的多模态微调实践与踩坑记录本文系统记录了在华为昇腾910B和英伟达4090两种硬件平台上,针对两个不同规模数据集(其中一个为从头构建的签字识别数据集)基于LLamafactory进行Qwen2.5-VL-3B多模态大模型微调的完整实验过程。实验主要探索了LoRA、Full Fine-tuning、Freeze Fine-tuning和OFT四种主流微调方法,并对学习率、训练轮数、LoRA秩、批处理大小、精度类型等数十个超参数进行了系统性对比测试,并在此过程中解决Oft无法正常推理和测试等问题。
一碗甜汤ᐝ3 个月前
语言模型·大模型·微调·chatglm
chatglm3-6b部署和微调学习记录📝部署chatglm3-6b 项目地址:https://github.com/THUDM/ChatGLM3
勇气要爆发3 个月前
人工智能·gpt·机器学习·llm·微调·多模态·预训练
【AI扫盲】大模型(LLM)原理详解:从 DeepSeek 到 GPT-5 全面解析 (2026最新版)难度:⭐⭐ 关键词:LLM, 参数, 预训练, 微调, 多模态, DeepSeek大家好,我是飞哥!👋