sft

bennybi10 天前
人工智能·ai·sft·rag
AI方案调研与实践二:模型训练目录1. 说明1.1 模型训练方式的选择1.2 训练流程1.3 LLM与数据结合的方式RAG(检索增强⽣成)
程序员老周66612 天前
sft·强化学习·openmanus·openmanus-rl·agentgym·行为克隆·强化学习环境
3. OpenManus-RL中使用AgentGym建立强化学习环境AgentGym是为评估和开发大模型agent而设计的支持多环境和多任务的框架。该框架统一采用ReAct格式,提供多样化的交互环境和任务,支持实时反馈和并发操作。
太空眼睛22 天前
lora·微调·sft·训练·deepspeed·llama-factory·deepseek
【LLaMA-Factory】使用LoRa微调训练DeepSeek-R1-Distill-Qwen-7B如果不禁用开源驱动,直接安装nvidia-smi,会安装失败,在日志文件/var/log/nvidia-installer.log中会出现以下错误信息 ERROR: Unable to load the kernel module 'nvidia.ko'
胡攀峰1 个月前
人工智能·大模型·llm·sft·强化学习·rlhf·指令微调
第12章 微调生成模型在本章中,我们将以一个预训练文本生成模型为例,详细讲解微调(fine-tuning)的完整流程。微调是生成高质量模型的关键步骤,也是我们工具包中用于将模型适配到特定预期行为的重要工具。通过微调,我们可以让模型适配特定的数据集或领域。
探索云原生2 个月前
ai·云原生·llm·sft
大模型微调实战:通过 LoRA 微调修改模型自我认知本文主要分享如何使用 LLaMAFactory 实现大模型微调,基于 Qwen1.5-1.8B-Chat 模型进行 LoRA 微调,修改模型自我认知。
木亦汐丫3 个月前
sft·rl·mtp·mla·deepseekmoe·fp8 混合精度训练·dualpipe算法
【大模型系列篇】国产开源大模型DeepSeek-V3技术报告解析目录DeepSeek-V3技术报告1. 摘要2. 引言3. DeepSeek V3 架构3.1 基础架构
冀辉3 个月前
人工智能·sft·大模型微调·unsloth·deepseek蒸馏模型微调
Ubuntu2204下使用NVIDIA GeForce RTX 4090进行DeepSeek-R1-Distill-Llama-8B模型微调使用unsloth,可以方便地对大模型进行微调。以微调DeepSeek-R1-Distill-Llama-8B为例:
喝不完一杯咖啡3 个月前
人工智能·llm·sft·llama·llama-factory
【AI时代】可视化训练模型工具LLaMA-Factory安装与使用官方地址:https://github.com/hiyouga/LLaMA-Factory创建虚拟环境
wxl7812274 个月前
sft·dpo·gpt-4o
GPT-4o微调SFT及强化学习DPO数据集构建假设,已经标注的训练数据集df包含了提示词、输入和输出三列。构建微调SFT的数据集代码如下:假设,已经标注的强化学习数据集df包含用户输入、首选输出、次选输出三列。
山顶夕景4 个月前
大模型·llm·sft·拒绝采样微调·推理优化
【LLM】为何DeepSeek 弃用MST却采用Rejection采样在提升大语言模型(LLM)推理能力时,拒绝采样(Rejection Sampling)和 马尔可夫搜索树(Markov Search Tree)是两个超强的技术。
winner88814 个月前
大模型·llm·sft·llama·rlhf·cot·大模型综述
大模型综述一镜到底(全文八万字) ——《Large Language Models: A Survey》论文链接:https://arxiv.org/abs/2402.06196摘要:自2022年11月ChatGPT发布以来,大语言模型(LLMs)因其在广泛的自然语言任务上的强大性能而备受关注。正如缩放定律所预测的那样,大语言模型通过在大量文本数据上训练数十亿个模型参数来获得通用语言理解和生成能力。大语言模型的研究领域虽然非常新,但在许多不同方面都在迅速发展。在本文中,我们回顾了一些最杰出的大语言模型,包括三个流行的大语言模型家族(GPT、LLaMA、PaLM),讨论了它们的特点、贡献和局限性。我们还概述了
探索云原生5 个月前
ai·llm·sft
大模型微调基本概念指北本文主要分享一下大模型微调相关的基本概念,包括大模型(GPT)训练流程、微调(SFT)方法&分类&框架&最佳实践、强化学习(RLHF),最后则是分享了如何训练垂直领域大模型。
SpikeKing7 个月前
人工智能·lora·llm·sft·多模态大模型·llama-factory·qwen2-vl
LLM - 使用 LLaMA-Factory 微调大模型 Qwen2-VL SFT(LoRA) 图像数据集 教程 (2)欢迎关注我的CSDN:https://spike.blog.csdn.net/ 本文地址:https://spike.blog.csdn.net/article/details/143725947
野指针小李7 个月前
lora·sft·vllm·llama-factory
LLaMA-Factory学习笔记(1)——采用LORA对大模型进行SFT并采用vLLM部署的全流程该博客是我根据自己学习过程中的思考与总结来写作的,由于初次学习,可能会有错误或者不足的地方,望批评与指正。
牛右刀薛面8 个月前
llm·sft·llamafactory
launcher.py: error: the following arguments are required: --output_dir记录一个LLaMA-Factroy配置过程。按理说配置好文件应该就可以启动了,但是一直包错说没有output_dir这个参数。百思不得其解,后来我把整个yaml文件的参数都注视掉,竟然还是报了同样的错。我发现可能是其他地方出错,后来发现竟然是我的yaml配置文件是以yml结尾,官方的是以yaml结尾。大乌龙。因此如果官方有例子,尽量复制,再手动改,稍微细节没对上就会报错,这很正常,但是要通过尽可能合理的方式避免bug。
Nicolas89310 个月前
gpt·chatgpt·大模型·sft·强化学习·rlhf·人类反馈
【大模型理论篇】GPT系列预训练模型原理讲解GPT的全称是Generative Pre-Trained Transformer,以Transformer为基础模型(可以看Transformer的原理解析),先后迭代了GPT-1【1】,GPT-2【2】,GPT-3【3】、GPT3.5(InstructGPT)【10】、GPT4。参考技术细节的公开程度,本篇文章主要关注前四个版本,重点将会讲解前四种模型的演变趋势和各自特点。基于文本预训练的GPT-1,GPT-2,GPT-3三代模型采用的是同种架构,即以Transformer为核心结构的模型,不同的是模
伊织code1 年前
大模型·微调·sft·llama·gguf·unsloth
Unsloth 微调 Llama 3本文参考: https://colab.research.google.com/drive/135ced7oHytdxu3N2DNe1Z0kqjyYIkDXp 改编自:https://blog.csdn.net/qq_38628046/article/details/138906504
codebat_raymond1 年前
人工智能·语言模型·自然语言处理·lora·llm·微调·sft
LoRA Land: 310个经微调的大语言模型可媲美GPT-4低秩自适应 (LoRA) 已成为大语言模型 (LLM) 参数有效微调 (PEFT) 中最广泛采用的方法之一。LoRA 减少了可训练参数的数量和内存使用,同时达到了与全面微调相当的性能。该研究旨在评估在实际应用中训练和服务使用 LoRA 微调的 LLM 的可行性。首先,该研究测量了在 10 个基础模型和 31 个任务上使用量化低秩适配器微调的 LLM 的质量,总共有 310 个模型。研究发现,4 位 LoRA 微调模型的平均性能优于基础模型 34 个点,优于 GPT-4 10 个点。其次,该研究调查了用于微
Elwin Wong1 年前
lora·大模型·llm·sft·大模型微调
LoRA微调论文:LoRA: Low-Rank Adaptation of Large Language Models