强化学习与思维链

一. 强化学习

1.SFT与强化学习

2.RM(奖励模型)

ORM(结果奖励):标注困难,成本高

PRM(过程奖励): 简单, 但存在结果对, 过程错的情况。

  1. 奖励方法:

基于规则 (Rule-based Rewards)的奖励, deepseek

基于模型(Reward Model)的奖励, openai

  1. PPO:有value Model
  1. GPO: 没有Value Model, 让结果内卷

二. 思维链技术

  1. 增强模型推理技术的手段

1)提高token数,2)生成更多个的输出

  1. 思维链方法

(1)

iput: prompt

output: W1,W2, W3, R1

(2)并行搜索+自我优化

  1. DeepSeek-R1训练过程
  1. 强化学习与蒸馏技术

5.推理模型的未来趋势

相关推荐
国家一级假勤奋大学生13 小时前
InternVL系列 technical report 解析
大模型·llm·vlm·mllm·internvl·调研笔记
杀生丸学AI14 小时前
【物理重建】PPISP :辐射场重建中光度变化的物理合理补偿与控制
人工智能·大模型·aigc·三维重建·世界模型·逆渲染
人工智能培训15 小时前
大模型训练数据版权与知识产权问题的解决路径
人工智能·大模型·数字化转型·大模型算法·大模型应用工程师
找了一圈尾巴15 小时前
Agent Skills 与其它技术方案的对比
大模型·大模型应用开发
阿里巴啦21 小时前
clawdbot (openclaw) + discord 机器人部署指南学习教程
机器人·大模型·discord·clawdbot·openclaw·clawbot安装教程
CoderJia程序员甲1 天前
GitHub 热榜项目 - 日榜(2026-01-30)
开源·大模型·llm·github·ai教程
人工智能培训1 天前
基于Transformer的人工智能模型搭建与fine-tuning二
人工智能·深度学习·机器学习·大模型·transformer·企业数字化转型
司南OpenCompass1 天前
当模型开始“记住”评测,如何用动态数据对抗污染?(上篇)
人工智能·大模型·多模态模型·大模型评测·司南评测
xixixi777771 天前
2026 年 1 月 30 日 AI + 通信 + 安全前沿信息集成
算法·安全·ai·大模型·安全威胁分析·信息与通信·通信
艾莉丝努力练剑2 天前
人工智能 Gemini 2.5 Pro:深度解析技术突破与实战应用
c++·人工智能·python·ai·大模型·编辑器·gemini