大模型微调

陈奕昆8 天前
人工智能·llama·大模型微调
1.1探索 LLaMA-Factory:大模型微调的一站式解决方案在大模型的时代,微调技术是将预训练模型适配到特定任务的关键。LLaMA-Factory 作为一款强大的工具,为开发者提供了便捷且高效的大模型微调解决方案。本文将深入介绍 LLaMA-Factory 的基础入门部分,包括环境部署、框架特性,同时配有详细的代码示例和结构图,帮助你快速上手。
吴法刚8 天前
人工智能·lora·llama·大模型训练·大模型微调·llama.cpp
20_大模型微调和训练之-基于LLamaFactory+LoRA微调LLama3后格式合并GGUF 格式的全名为(GPT-Generated Unified Format),提到 GGUF 就不得不提到它的前身 GGML(GPT-Generated Model Language)。GGML 是专门为了机器学习设计的张量库,最早可 以追溯到 2022/10。其目的是为了有一个单文件共享的格式,并 且易于在不同架构的 GPU 和 CPU 上进行推理。但在后续的开发 中,遇到了灵活性不足、相容性及难以维护的问题。
陈奕昆9 天前
人工智能·llama·大模型微调·llama-factory
大模型微调之LLaMA-Factory 系列教程大纲环境部署与框架特性Web UI 快速上手命令行深度操作数据格式规范数据清洗与增强数据集注册与验证参数高效微调(PEFT)
黎明鱼儿1 个月前
数据集·大模型微调·llama-factory
LLaMA-Factory 数据集成从入门到精通LLaMA-Factory 框架通过Alpaca/Sharegpt双格式体系实现多任务适配,其中Alpaca专注结构化指令微调(含SFT/DPO/预训练),Sharegpt支持多角色对话及多模态数据集成。核心配置依托 dataset_info.json 实现数据源映射、格式定义(formatting)、列名绑定(columns)及角色标签(tags)设置,需特别注意多模态路径与文本标记的严格匹配。优先级规则遵循:云端仓库 > 本地脚本 > 文件直读,配置时须规避角色标签冲突和路径验证疏漏等常见误区。
人工智能培训咨询叶梓1 个月前
人工智能·语言模型·自然语言处理·性能优化·调优·大模型微调·llama factory
LLAMAFACTORY:一键优化大型语言模型微调的利器想要掌握如何将大模型的力量发挥到极致吗?叶梓老师带您深入了解 Llama Factory —— 一款革命性的大模型微调工具(限时免费)。
带电的小王1 个月前
大模型微调
【大模型基础_毛玉仁】4.5 实践与应用--参数高效微调PEFT实践部分介绍流行HuggingFace开发的开源库HF-PEFT框架及其使用方法和技巧。应用部分展示PEFT在表格数据处理和金融领域Text-to-SQL生成任务中的案例,证明其在提升大模型特定任务性能方面的有效性,为未来研究和应用提供参考。
林泽毅2 个月前
人工智能·python·深度学习·机器学习·自然语言处理·大模型·大模型微调
Transformers x SwanLab:可视化NLP模型训练(2025最新版)HuggingFace 的 Transformers 是目前最流行的深度学习训框架之一(100k+ Star),现在主流的大语言模型(LLaMa系列、Qwen系列、ChatGLM系列等)、自然语言处理模型(Bert系列)等,都在使用Transformers来进行预训练、微调和推理。
_Meilinger_2 个月前
大模型·llm·微调·llama·大模型微调·llama-factory·unsloth
大模型微调|使用 LLaMA-Factory 微调 Llama3-8B-Chinese-Chat 完成知识问答任务前言:本篇博客分享如何基于LLaMA-Factory使用现有金融数据集实现LLaMA3的微调,以完成金融领域的知识问答任务。
Nicolas8932 个月前
大模型·swift·大模型微调·lora微调·微调框架·推理模型微调·msswift
【大模型实战】利用ms-swift微调框架对QwQ-32B推理模型进行微调之前我们在《大模型训练/微调的一些经验分享》、《利用DeepSeek-R1数据微调蒸馏ChatGLM32B让大模型具备思考能力》中做了相关模型微调的介绍。目前在基座大模型能力还没有达到足够牛的情况下,大模型微调在商业化、垂直领域应用依然是不可或缺,即使是使用DeepSeek-R1、QwQ-32B也难以保证商业应用的要求。
背太阳的牧羊人2 个月前
人工智能·llama·大模型微调
LLaMA-Factory 训练数据默认使用 instruction、input、output 三个 key在 LLaMA-Factory 进行 SFT(Directive supervision fine-tuning 指令监督微调)时,训练数据的格式 非常重要,因为大模型依赖标准化的数据结构来学习 指令-响应 模式。
冀辉2 个月前
人工智能·sft·大模型微调·unsloth·deepseek蒸馏模型微调
Ubuntu2204下使用NVIDIA GeForce RTX 4090进行DeepSeek-R1-Distill-Llama-8B模型微调使用unsloth,可以方便地对大模型进行微调。以微调DeepSeek-R1-Distill-Llama-8B为例:
初窺門徑3 个月前
llama·大模型微调·llama-factory
llama-factory部署微调方法(wsl-Ubuntu & Windows)llama-factory项目GitHub地址:GitHub - hiyouga/LLaMA-Factory: Unified Efficient Fine-Tuning of 100+ LLMs & VLMs (ACL 2024)
大鱼>3 个月前
llama·大模型微调·deepseek
Ubuntu 服务器Llama Factory 搭建DeepSeek-R1微调训练环境LLM 微调指的是在已经预训练好的大型语言模型基础上,使用特定的任务数据或领域数据,通过进一步的训练来调整模型的参数,使其在特定任务或领域上能够表现得更好。简单来说,就是对一个已经具备了丰富语言知识的通用大模型进行 “个性化” 调整,以适应更具体的应用场景和需求。
小白顶呱呱3 个月前
笔记·大模型·prompt·rag·大模型微调
图解【提示工程 VS 微调 VS RAG、全量微调 VS LoRA微调、TopK VS TopP】截图笔记RAG实战中难以解决的问题点:微软提出的GraphRAG项目备受关注。该项目的主要目的是通过改进信息检索和整理的方式,提升企业知识库的实用性和响应速度。GraphRAG的核心理念在于提前整理和构建知识图谱,并将信息关联起来,以便于快速回答具体或宏观的问题。
Nicolas8934 个月前
大模型·全参微调·大模型微调·glm4·llamafactory·chatglm9b
【大模型实战篇】LLaMA Factory微调ChatGLM-4-9B模型虽然现在大模型微调的文章很多,但纸上得来终觉浅,大模型微调的体感还是需要自己亲自上手实操过,才能有一些自己的感悟和直觉。这次我们选择使用llama_factory来微调chatglm-4-9B大模型。
python_知世5 个月前
人工智能·深度学习·程序人生·自然语言处理·大语言模型·llama·大模型微调
基于LLaMA-Factory微调Llama3本文简要介绍下基于LLaMA-Factory的llama3 8B模型的微调过程升级到24.0版本这里以微调中文为例:
余胜辉5 个月前
数据清洗·大模型微调·知识库查询与构建
机器人构建详解:售前售后服务客服机器人与广告生成机器人的微调数据处理方法大模型(如BERT、GPT等)在自然语言处理任务中展现了强大的能力,但为了使其更贴合特定应用场景,通常需要进行微调。本文将详细讲解如何为售前售后服务的客服机器人和广告生成机器人准备高质量的微调数据,并通过具体的代码示例帮助读者更好地理解和应用这些技术。
人工智能培训咨询叶梓5 个月前
性能优化·llama·大模型微调·人工智能讲师·大模型讲师·人工智能培训·微调大模型
人工智能大模型培训讲师叶梓:Llama Factory 微调模型实战分享提纲LLaMA-Factory ——一个高效、易用的大模型训练与微调平台。它支持多种预训练模型,并且提供了丰富的训练算法,包括增量预训练、多模态指令监督微调、奖励模型训练等。
人工智能培训咨询叶梓5 个月前
人工智能·语言模型·自然语言处理·分类·transformer·大模型微调·图结构
NodeFormer:一种用于节点分类的可扩展图结构学习 Transformer人工智能咨询培训老师叶梓 转载标明出处现有的神经网络(GNNs)在处理大规模图数据时面临着一些挑战,如过度平滑、异质性、长距离依赖处理、边缘不完整性等问题,尤其是当输入图完全缺失时。为了解决这些问题,上海交通大学的研究者们人提出了一种名为NodeFormer的新型图结构学习Transformer。
爱喝白开水a5 个月前
人工智能·深度学习·机器学习·自然语言处理·大模型·transformer·大模型微调
优化注意力层提升 Transformer 模型效率:通过改进注意力机制降低机器学习成本Transformer 架构由 Vaswani 等人在 2017 年发表的里程碑式论文《Attention Is All You Need》中首次提出,如今已被广泛认为是过去十年间最具开创性的科学突破之一。注意力机制是 Transformer 的核心创新,它为人工智能模型提供了一种全新的方法,使模型能够根据具体任务的需求,灵活地聚焦输入序列的不同部分,从而更深入地理解复杂的语言和结构。