强化学习与思维链

一. 强化学习

1.SFT与强化学习

2.RM(奖励模型)

ORM(结果奖励):标注困难,成本高

PRM(过程奖励): 简单, 但存在结果对, 过程错的情况。

  1. 奖励方法:

基于规则 (Rule-based Rewards)的奖励, deepseek

基于模型(Reward Model)的奖励, openai

  1. PPO:有value Model
  1. GPO: 没有Value Model, 让结果内卷

二. 思维链技术

  1. 增强模型推理技术的手段

1)提高token数,2)生成更多个的输出

  1. 思维链方法

(1)

iput: prompt

output: W1,W2, W3, R1

(2)并行搜索+自我优化

  1. DeepSeek-R1训练过程
  1. 强化学习与蒸馏技术

5.推理模型的未来趋势

相关推荐
绵满7 小时前
"Sample Is Feature: Beyond Item-Level, Toward Sample-Level Tokens for Unified Large Recommender Models" 论文笔记
大模型·推荐系统
山屿落星辰9 小时前
昇腾NPU上的FlashAttention:让大模型“算得快“又“记得准“
大模型
AI绘画哇哒哒10 小时前
Agent三种思考模式深度解析:CoT/ReAct/Plan-and-Execute,小白程序员必看,助你轻松掌握大模型精髓(收藏版)
人工智能·学习·ai·程序员·大模型·产品经理·转行
海的辽阔13 小时前
如何在MAC下安装EcomGpt模型
macos·大模型·ecomgpt
赢乐17 小时前
AI大模型学习笔记:LangChain核心组件-工具(Tools)
langchain·大模型·agent·function_call·工具(tools)·tool装饰器·定义工具
deephub20 小时前
2026 年面向 LLM 的 RL方法总结:从 PPO 到 DPO 到 GRPO,再到多智能体 RL
人工智能·大语言模型·强化学习·多智能体
Robot_Nav1 天前
深度学习与强化学习面试八股文知识点汇总
人工智能·深度学习·强化学习
前端小超人rui2 天前
Prompt 提示词原理/组成/编写原则/编写技巧
人工智能·大模型·prompt
哥本哈士奇(aspnetx)2 天前
LangChain DeepAgents 学习笔记
大模型
Mr.朱鹏2 天前
9-检索增强生成RAG详解
python·gpt·langchain·大模型·llm·rag