DeepSeek-R1 论文. Reinforcement Learning 通过强化学习激励大型语言模型的推理能力

论文链接:

[2501.12948] DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning

实在太长,自行扔到 Model 里,去翻译去提问吧。

工作原理:

主要技术,就是训练出一些专有用途小模型,来帮助大模型训练。 主要技术:

1. 强化学习 (RL)

核心是强化学习技术,像训练小狗一样,当模型做出正确的推理步骤或得到正确的结果时,就会获得奖励,给 <think> </think> 标记;否则受到惩罚。 通过不断地学习和调整,模型的推理能力就越来越强。 强化学习过程分为多个阶段,包括直接在基础模型上进行强化学习 (DeepSeek-R1-Zero),以及在加入少量人工整理的数据后进行强化学习。

  1. 冷启动数据

为了让模型更"听话",在 DeepSeek-R1-Zero 的基础上加入了一些人工整理的数据,并进行多阶段训练。 这些数据可以帮助模型更好地理解人类的语言和思维方式,从而提高推理的准确性和可读性。

  1. 多阶段训练

训练过程分为多个阶段,包括冷启动阶段、推理导向的强化学习阶段、拒绝采样和监督微调阶段,以及针对所有场景的强化学习阶段。 每个阶段都有不同的目标和侧重点,从而保证模型的推理能力和泛化能力都能得到提升。

  1. 知识蒸馏

DeepSeek-R1 生成大量的训练数据,然后用这些数据来训练 smaller models。可以显著提高 smaller models 的推理性能,降低计算成本。

相关推荐
LDG_AGI12 分钟前
【深度学习】多元物料融合算法(一):量纲对齐常见方法
人工智能·深度学习·算法·机器学习·均值算法·哈希算法·启发式算法
EDPJ15 分钟前
(2025|ICLR|厦大&华为,LoSA,基于表示互信息的动态层级稀疏率,基于重构误差的秩分配)LLM 的动态低秩稀疏自适应
深度学习·算法·语言模型
Start_Present15 分钟前
Pytorch 第十回:卷积神经网络——DenseNet模型
pytorch·python·深度学习·神经网络·分类·cnn
KangkangLoveNLP18 分钟前
从Swish到SwiGLU:激活函数的进化与革命,qwen2.5应用的激活函数
人工智能·深度学习·神经网络·算法·机器学习·自然语言处理·cnn
猫头虎22 分钟前
阿里云操作系统控制台评测:国产AI+运维 一站式运维管理平台
运维·服务器·人工智能·阿里云·aigc·ai编程·ai写作
子洋22 分钟前
AI 开发者必备:Vercel AI SDK 轻松搞定多厂商 AI 调用
前端·人工智能·后端
程序员小赵同学23 分钟前
【LangChain接入阿里云百炼deepseek】
阿里云·langchain·云计算·openai·ai编程·deepseek·百炼
星期一研究室24 分钟前
ima 知识库,重新定义你的「知识加速器」
aigc·aiops·deepseek
池央1 小时前
展望 AIGC 前景:通义万相 2.1 与蓝耘智算平台共筑 AI 生产力高地
人工智能·aigc
baikaishui3073 小时前
物联网时代的车队管理系统阐述
大数据·人工智能