大模型微调

林泽毅5 天前
人工智能·python·深度学习·机器学习·自然语言处理·大模型·大模型微调
Transformers x SwanLab:可视化NLP模型训练(2025最新版)HuggingFace 的 Transformers 是目前最流行的深度学习训框架之一(100k+ Star),现在主流的大语言模型(LLaMa系列、Qwen系列、ChatGLM系列等)、自然语言处理模型(Bert系列)等,都在使用Transformers来进行预训练、微调和推理。
_Meilinger_11 天前
大模型·llm·微调·llama·大模型微调·llama-factory·unsloth
大模型微调|使用 LLaMA-Factory 微调 Llama3-8B-Chinese-Chat 完成知识问答任务前言:本篇博客分享如何基于LLaMA-Factory使用现有金融数据集实现LLaMA3的微调,以完成金融领域的知识问答任务。
Nicolas89311 天前
大模型·swift·大模型微调·lora微调·微调框架·推理模型微调·msswift
【大模型实战】利用ms-swift微调框架对QwQ-32B推理模型进行微调之前我们在《大模型训练/微调的一些经验分享》、《利用DeepSeek-R1数据微调蒸馏ChatGLM32B让大模型具备思考能力》中做了相关模型微调的介绍。目前在基座大模型能力还没有达到足够牛的情况下,大模型微调在商业化、垂直领域应用依然是不可或缺,即使是使用DeepSeek-R1、QwQ-32B也难以保证商业应用的要求。
背太阳的牧羊人12 天前
人工智能·llama·大模型微调
LLaMA-Factory 训练数据默认使用 instruction、input、output 三个 key在 LLaMA-Factory 进行 SFT(Directive supervision fine-tuning 指令监督微调)时,训练数据的格式 非常重要,因为大模型依赖标准化的数据结构来学习 指令-响应 模式。
冀辉1 个月前
人工智能·sft·大模型微调·unsloth·deepseek蒸馏模型微调
Ubuntu2204下使用NVIDIA GeForce RTX 4090进行DeepSeek-R1-Distill-Llama-8B模型微调使用unsloth,可以方便地对大模型进行微调。以微调DeepSeek-R1-Distill-Llama-8B为例:
初窺門徑1 个月前
llama·大模型微调·llama-factory
llama-factory部署微调方法(wsl-Ubuntu & Windows)llama-factory项目GitHub地址:GitHub - hiyouga/LLaMA-Factory: Unified Efficient Fine-Tuning of 100+ LLMs & VLMs (ACL 2024)
大鱼>1 个月前
llama·大模型微调·deepseek
Ubuntu 服务器Llama Factory 搭建DeepSeek-R1微调训练环境LLM 微调指的是在已经预训练好的大型语言模型基础上,使用特定的任务数据或领域数据,通过进一步的训练来调整模型的参数,使其在特定任务或领域上能够表现得更好。简单来说,就是对一个已经具备了丰富语言知识的通用大模型进行 “个性化” 调整,以适应更具体的应用场景和需求。
小白顶呱呱1 个月前
笔记·大模型·prompt·rag·大模型微调
图解【提示工程 VS 微调 VS RAG、全量微调 VS LoRA微调、TopK VS TopP】截图笔记RAG实战中难以解决的问题点:微软提出的GraphRAG项目备受关注。该项目的主要目的是通过改进信息检索和整理的方式,提升企业知识库的实用性和响应速度。GraphRAG的核心理念在于提前整理和构建知识图谱,并将信息关联起来,以便于快速回答具体或宏观的问题。
Nicolas8933 个月前
大模型·全参微调·大模型微调·glm4·llamafactory·chatglm9b
【大模型实战篇】LLaMA Factory微调ChatGLM-4-9B模型虽然现在大模型微调的文章很多,但纸上得来终觉浅,大模型微调的体感还是需要自己亲自上手实操过,才能有一些自己的感悟和直觉。这次我们选择使用llama_factory来微调chatglm-4-9B大模型。
python_知世3 个月前
人工智能·深度学习·程序人生·自然语言处理·大语言模型·llama·大模型微调
基于LLaMA-Factory微调Llama3本文简要介绍下基于LLaMA-Factory的llama3 8B模型的微调过程升级到24.0版本这里以微调中文为例:
余胜辉4 个月前
数据清洗·大模型微调·知识库查询与构建
机器人构建详解:售前售后服务客服机器人与广告生成机器人的微调数据处理方法大模型(如BERT、GPT等)在自然语言处理任务中展现了强大的能力,但为了使其更贴合特定应用场景,通常需要进行微调。本文将详细讲解如何为售前售后服务的客服机器人和广告生成机器人准备高质量的微调数据,并通过具体的代码示例帮助读者更好地理解和应用这些技术。
人工智能培训咨询叶梓4 个月前
性能优化·llama·大模型微调·人工智能讲师·大模型讲师·人工智能培训·微调大模型
人工智能大模型培训讲师叶梓:Llama Factory 微调模型实战分享提纲LLaMA-Factory ——一个高效、易用的大模型训练与微调平台。它支持多种预训练模型,并且提供了丰富的训练算法,包括增量预训练、多模态指令监督微调、奖励模型训练等。
人工智能培训咨询叶梓4 个月前
人工智能·语言模型·自然语言处理·分类·transformer·大模型微调·图结构
NodeFormer:一种用于节点分类的可扩展图结构学习 Transformer人工智能咨询培训老师叶梓 转载标明出处现有的神经网络(GNNs)在处理大规模图数据时面临着一些挑战,如过度平滑、异质性、长距离依赖处理、边缘不完整性等问题,尤其是当输入图完全缺失时。为了解决这些问题,上海交通大学的研究者们人提出了一种名为NodeFormer的新型图结构学习Transformer。
爱喝白开水a4 个月前
人工智能·深度学习·机器学习·自然语言处理·大模型·transformer·大模型微调
优化注意力层提升 Transformer 模型效率:通过改进注意力机制降低机器学习成本Transformer 架构由 Vaswani 等人在 2017 年发表的里程碑式论文《Attention Is All You Need》中首次提出,如今已被广泛认为是过去十年间最具开创性的科学突破之一。注意力机制是 Transformer 的核心创新,它为人工智能模型提供了一种全新的方法,使模型能够根据具体任务的需求,灵活地聚焦输入序列的不同部分,从而更深入地理解复杂的语言和结构。
爱喝白开水a4 个月前
人工智能·深度学习·机器学习·自然语言处理·分类·bert·大模型微调
Sentence-BERT实现文本匹配【分类目标函数】从这篇文章开始进入文本系列的BERT预训练模型时代,本文实战Sentence-BERT提出的如何训练嵌入模型的方法。实现类似Huggingface的风格,不同方法的实现之间可能会有一些重复,但每个方法是独立的,降低了复杂性。
冻感糕人~4 个月前
人工智能·程序人生·llm·问答系统·大语言模型·大模型微调·ragflow
利用RAGflow和LM Studio建立食品法规问答系统食品企业在管理标准、法规,特别是食品原料、特殊食品法规时,难以通过速查法规得到准确的结果。随着AI技术的发展,互联网上出现很多AI知识库的解决方案。
python_知世4 个月前
人工智能·自然语言处理·金融·llm·计算机技术·大模型微调·大模型研究报告
2024年中国金融大模型产业发展洞察报告(附完整PDF下载)本报告从金融大模型的技术发展背景入手,详细介绍了大模型的结构特征、优势能力,并结合行业卓越者的评选结果,展现了行业内的领先企业和他们的成功案例。报告进一步探讨了金融大模型产业的未来趋势,包括市场趋势前瞻、产品结构建设、技术能力迭代以及未来场景应用,为行业参与者提供战略决策的参考。此外,报告还收录了行业专家的见解,为读者带来第一手的行业洞察。整体而言,本报告是理解中国金融大模型产业发展不可多得的资料,适合金融科技领域的决策者、从业者及投资者阅读。
人工智能培训咨询叶梓5 个月前
人工智能·语言模型·自然语言处理·性能优化·调优·大模型微调·指令微调
探索开放资源上指令微调语言模型的现状人工智能咨询培训老师叶梓 转载标明出处开放模型在经过适当的指令调整后,性能可以与最先进的专有模型相媲美。但目前缺乏全面的评估,使得跨模型比较变得困难。来自Allen Institute for AI和华盛顿大学的研究人员们进行了一项全面的研究,探索了不同公开指令数据集对语言模型性能的影响。
放飞自我的Coder5 个月前
大模型微调·ms-swfit
【ms-swift 大模型微调实战】vllm serve xxxxx-checkpoint-merged [opentional args]
AI_小站5 个月前
人工智能·ai·语言模型·langchain·大模型·prompt·大模型微调
MedSAM微调版,自动生成 Prompt 嵌入实现图像分割!最近提出的Segment Anything Model (SAM)等基础模型在图像分割任务上取得了显著的成果。