rlhf

viperrrrrrrrrr79 小时前
微调·rlhf
RLHF微调场景🍋🍋AI学习🍋🍋🔥系列专栏: 👑哲学语录: 用力所能及,改变世界。 💖如果觉得博主的文章还不错的话,请点赞👍+收藏⭐️+留言📝支持一下博主哦🤞
亚里随笔10 天前
人工智能·深度学习·机器学习·语言模型·大语言模型·rlhf
SAPO:软自适应策略优化——大语言模型强化学习训练的稳定新范式强化学习已成为提升大语言模型推理能力的关键技术,但训练过程中的不稳定性问题长期困扰着研究者。阿里巴巴Qwen团队最新提出的SAPO(Soft Adaptive Policy Optimization)方法通过引入温度控制的软门控机制,巧妙地平衡了训练稳定性与学习效率。本文将深入解析这一突破性方法如何在保持序列连贯性的同时实现token级自适应,为大规模语言模型的RL训练开辟新路径。
亚里随笔13 天前
人工智能·深度学习·机器学习·llm·rlhf·agentic
MiniRL:用LLM稳定强化学习的新范式与第一阶近似理论这篇论文提出了一种新颖的强化学习与大型语言模型结合的理论框架,揭示了何时以及如何通过token级目标函数优化序列级奖励。通过数十万GPU小时的实验验证,论文系统性地分析了训练稳定性关键因素,为MoE模型的RL训练提供了实用指导方案。
亚里随笔15 天前
人工智能·语言模型·自然语言处理·llm·rlhf·agentic
DeepSeek-V3.2:开源大语言模型的新里程碑,在推理与智能体任务中突破性能边界DeepSeek-V3.2作为最新开源大语言模型,通过创新的稀疏注意力机制、可扩展的强化学习框架和大规模智能体任务合成管道,成功缩小了开源与闭源模型之间的性能差距。该模型不仅在多个推理基准测试中与GPT-5表现相当,其高性能变体DeepSeek-V3.2-Speciale更在IMO 2025和IOI 2025等国际顶级竞赛中获得金牌水平表现,标志着开源LLM进入全新发展阶段。
亚里随笔1 个月前
人工智能·深度学习·自然语言处理·大语言模型·rlhf
ReSpec:突破RL训练瓶颈的推测解码优化系统随着大语言模型通过强化学习进行对齐训练的需求激增,生成阶段的计算瓶颈日益凸显。ReSpec系统首次系统性地解决了推测解码在RL训练中面临的三大关键挑战,通过自适应配置调整、动态drafter演化和奖励加权更新机制,在保持训练稳定性的同时实现了高达4.5倍的加速效果,为高效的RL-based LLM适应提供了实用解决方案。
山顶夕景2 个月前
llm·强化学习·rlhf·gspo
【LLM-RL】GSPO算法Group Sequence Policy Optimization论文标题:Group Sequence Policy Optimization 论文链接:https://huggingface.co/papers/2507.18071 博客链接:https://qwenlm.github.io/blog/gspo/
亚里随笔3 个月前
人工智能·语言模型·自然语言处理·llm·rlhf·agentic
小型语言模型:智能体AI的未来?本文解读NVIDIA研究团队论文,颠覆“越大越好”的语言模型认知,论证小型语言模型(SLMs)在智能体AI(Agentic AI)中的性能、经济性与适配性优势,结合案例与迁移算法,为Agentic系统低成本部署提供思路,回应行业对LLM依赖的惯性挑战。
大千AI助手4 个月前
人工智能·gpt·语言模型·自然语言处理·rlhf·指令微调·模型对齐
InstructGPT:使用人类反馈训练语言模型以遵循指令本文由「大千AI助手」原创发布,专注用真话讲AI,回归技术本质。拒绝神话或妖魔化。搜索「大千AI助手」关注我,一起撕掉过度包装,学习真实的AI技术!
亚里随笔4 个月前
人工智能·机器学习·语言模型·自然语言处理·llm·rlhf
稳定且高效:GSPO如何革新大型语言模型的强化学习训练?本文将介绍Group Sequence Policy Optimization (GSPO),一种用于训练大型语言模型的稳定、高效且性能优异的强化学习算法。与之前采用token级重要性比率的算法不同,GSPO基于序列似然定义重要性比率,并执行序列级裁剪、奖励和优化,在Qwen3模型训练中取得了显著效果。
威化饼的一隅4 个月前
大模型·llm·强化学习·rlhf·dpo
【多模态】DPO学习笔记RLHF需要使用人标注的偏好数据对,先训练一个reward model,然后再让reward model和LLM做强化学习 【1】SFT训练LLM: 使用目标任务的训练数据训练得到的模型记为 π S F T \pi^{SFT} πSFT 【2】训练reward model: 使用目标任务的另一份数据 x x x输入 π S F T \pi^{SFT} πSFT,每份数据得到2个输出,记为 ( y 1 , y 2 ) ∼ π S F T ( y ∣ x ) (y_1,y_2) \sim \pi^{SFT}(
汀、人工智能5 个月前
rlhf·大模型微调·大模型部署·大模型量化技术
AI-Compass宝藏资源库:构建最全面的AI学习与实践生态,服务AI全群体AI-Compass将为你和社区提供在AI技术海洋中航行的方向与指引。无论你是刚踏入AI领域的初学者,还是寻求技术突破的进阶开发者,都能在这里找到通往AI各大技术方向的清晰路径和实践指南。作为一个全面覆盖人工智能技术栈的综合性开源项目,AI-Compass 不仅仅是一个简单的资源收集库,更是一个经过精心策划和系统化组织的AI学习生态系统。我们深度整合了从基础理论到前沿应用的完整知识体系,涵盖大语言模型、多模态AI、机器学习、深度学习、计算机视觉、自然语言处理、推荐系统、强化学习等核心技术领域,以及RAG、
大千AI助手5 个月前
人工智能·深度学习·算法·机器学习·强化学习·rlhf·人类反馈强化学习
RLHF:人类反馈强化学习 | 对齐AI与人类价值观的核心引擎本文由「大千AI助手」原创发布,专注用真话讲AI,回归技术本质。拒绝神话或妖魔化。搜索「大千AI助手」关注我,一起撕掉过度包装,学习真实的AI技术!
亚里随笔5 个月前
人工智能·llm·大语言模型·rlhf
L0:让大模型成为通用智能体的强化学习新范式在AI智能体研究领域,如何让大语言模型高效完成多轮、长周期任务仍是难题。本文将解读论文L0,其提出的端到端训练 pipeline 与 NB-Agent 架构,通过强化学习显著提升模型在问答任务上的表现,为通用智能体发展提供新思路。
阿丢是丢心心7 个月前
chatgpt·微调·强化学习·rlhf
【从0到1搞懂大模型】chatGPT 中的对齐优化(RLHF)讲解与实战(9)chatgpt系列模型演进的重要节点包含下面几个模型(当然,这两年模型发展太快了,4o这些推理模型我就先不写了) (Transformer) → GPT-1 → GPT-2 → GPT-3 → InstructGPT/ChatGPT(GPT-3.5) → GPT-4 下面介绍一下各个模型之前的重点差异
亚里随笔7 个月前
人工智能·llm·rlhf
Tool-Star新突破!RL赋能LLM多工具协同推理,性能全面超越基线方法在大语言模型(LLM)推理能力快速发展的背景下,如何让模型高效调用多种外部工具进行协同推理成为新挑战。本文提出的Tool-Star框架,通过创新的数据合成与强化学习策略,显著提升了模型在复杂推理任务中的表现,为多工具集成推理开辟了新路径。
亚里随笔7 个月前
人工智能·架构·大语言模型·rlhf·推理加速
StreamRL:弹性、可扩展、异构的RLHF架构大语言模型(LLMs)的强化学习(RL)训练正处于快速发展阶段,但现有架构存在诸多问题。本文介绍的StreamRL框架为解决这些难题而来,它通过独特设计提升了训练效率和资源利用率,在相关实验中表现优异,想知道它是如何做到的吗?快来一探究竟!
胡攀峰8 个月前
人工智能·大模型·llm·sft·强化学习·rlhf·指令微调
第12章 微调生成模型在本章中,我们将以一个预训练文本生成模型为例,详细讲解微调(fine-tuning)的完整流程。微调是生成高质量模型的关键步骤,也是我们工具包中用于将模型适配到特定预期行为的重要工具。通过微调,我们可以让模型适配特定的数据集或领域。
kngines9 个月前
人工智能·线性代数·大语言模型·概率论·强化学习·rlhf
从零构建大语言模型全栈开发指南:第一部分:数学与理论基础-1.1.2核心数学基础:线性代数、概率论与梯度优化👉 点击关注不迷路 👉 点击关注不迷路 👉 点击关注不迷路线性代数是描述高维数据与模型结构的核心工具,其核心概念包括:
winner888110 个月前
大模型·llm·sft·llama·rlhf·cot·大模型综述
大模型综述一镜到底(全文八万字) ——《Large Language Models: A Survey》论文链接:https://arxiv.org/abs/2402.06196摘要:自2022年11月ChatGPT发布以来,大语言模型(LLMs)因其在广泛的自然语言任务上的强大性能而备受关注。正如缩放定律所预测的那样,大语言模型通过在大量文本数据上训练数十亿个模型参数来获得通用语言理解和生成能力。大语言模型的研究领域虽然非常新,但在许多不同方面都在迅速发展。在本文中,我们回顾了一些最杰出的大语言模型,包括三个流行的大语言模型家族(GPT、LLaMA、PaLM),讨论了它们的特点、贡献和局限性。我们还概述了
BQW_1 年前
llm·强化学习·rlhf·偏好对齐·o1模型
【偏好对齐】PRM应该奖励单个步骤的正确性吗?论文地址:《Rewarding Progress: Scaling Automated Process Verifiers for LLM Reasoning》