DeepSeek-R1 论文. Reinforcement Learning 通过强化学习激励大型语言模型的推理能力

论文链接:

[2501.12948] DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning

实在太长,自行扔到 Model 里,去翻译去提问吧。

工作原理:

主要技术,就是训练出一些专有用途小模型,来帮助大模型训练。 主要技术:

1. 强化学习 (RL)

核心是强化学习技术,像训练小狗一样,当模型做出正确的推理步骤或得到正确的结果时,就会获得奖励,给 <think> </think> 标记;否则受到惩罚。 通过不断地学习和调整,模型的推理能力就越来越强。 强化学习过程分为多个阶段,包括直接在基础模型上进行强化学习 (DeepSeek-R1-Zero),以及在加入少量人工整理的数据后进行强化学习。

  1. 冷启动数据

为了让模型更"听话",在 DeepSeek-R1-Zero 的基础上加入了一些人工整理的数据,并进行多阶段训练。 这些数据可以帮助模型更好地理解人类的语言和思维方式,从而提高推理的准确性和可读性。

  1. 多阶段训练

训练过程分为多个阶段,包括冷启动阶段、推理导向的强化学习阶段、拒绝采样和监督微调阶段,以及针对所有场景的强化学习阶段。 每个阶段都有不同的目标和侧重点,从而保证模型的推理能力和泛化能力都能得到提升。

  1. 知识蒸馏

DeepSeek-R1 生成大量的训练数据,然后用这些数据来训练 smaller models。可以显著提高 smaller models 的推理性能,降低计算成本。

相关推荐
Wendy144140 分钟前
【灰度实验】——图像预处理(OpenCV)
人工智能·opencv·计算机视觉
中杯可乐多加冰1 小时前
五大低代码平台横向深度测评:smardaten 2.0领衔AI原型设计
人工智能
无线图像传输研究探索1 小时前
单兵图传终端:移动场景中的 “实时感知神经”
网络·人工智能·5g·无线图传·5g单兵图传
zzywxc7872 小时前
AI在编程、测试、数据分析等领域的前沿应用(技术报告)
人工智能·深度学习·机器学习·数据挖掘·数据分析·自动化·ai编程
铭keny2 小时前
YOLOv8 基于RTSP流目标检测
人工智能·yolo·目标检测
墨尘游子3 小时前
11-大语言模型—Transformer 盖楼,BERT 装修,RoBERTa 直接 “拎包入住”|预训练白话指南
人工智能·语言模型·自然语言处理
金井PRATHAMA3 小时前
主要分布于内侧内嗅皮层的层Ⅲ的网格-速度联合细胞(Grid × Speed Conjunctive Cells)对NLP中的深层语义分析的积极影响和启示
人工智能·深度学习·神经网络·机器学习·语言模型·自然语言处理·知识图谱
天道哥哥3 小时前
InsightFace(RetinaFace + ArcFace)人脸识别项目(预训练模型,鲁棒性很好)
人工智能·目标检测
幻风_huanfeng3 小时前
学习人工智能所需知识体系及路径详解
人工智能·学习
云道轩4 小时前
使用Docker在Rocky Linux 9.5上在线部署LangFlow
linux·人工智能·docker·容器·langflow