强化学习与思维链

一. 强化学习

1.SFT与强化学习

2.RM(奖励模型)

ORM(结果奖励):标注困难,成本高

PRM(过程奖励): 简单, 但存在结果对, 过程错的情况。

  1. 奖励方法:

基于规则 (Rule-based Rewards)的奖励, deepseek

基于模型(Reward Model)的奖励, openai

  1. PPO:有value Model
  1. GPO: 没有Value Model, 让结果内卷

二. 思维链技术

  1. 增强模型推理技术的手段

1)提高token数,2)生成更多个的输出

  1. 思维链方法

(1)

iput: prompt

output: W1,W2, W3, R1

(2)并行搜索+自我优化

  1. DeepSeek-R1训练过程
  1. 强化学习与蒸馏技术

5.推理模型的未来趋势

相关推荐
AImatters41 分钟前
原力灵机并购Atomix:让机器人在真实业务中长出数据飞轮
机器人·大模型·具身智能·atomix·原力灵机
Tbisnic2 小时前
AI大模型学习 第十天:让程序“指挥”大模型 —— 从对话到工具调用
人工智能·python·ai·大模型·react·cot·提示词工程
阿提说说3 小时前
我的 NVIDIA 考试攻略
python·大模型·agent
刘大猫.3 小时前
宇树科技回应联合英伟达开发“H2+”人形机器人,预计今年下半年正式亮相
人工智能·科技·机器学习·ai·chatgpt·机器人·大模型
蜂蜜黄油呀土豆4 小时前
Agent 循环:观察、思考、行动(ReAct 入门)
python·ai·大模型·react·js
在水一缸6 小时前
AI 搜索新纪元:Perplexity 与 SearchGPT 如何颠覆传统搜索
人工智能·搜索引擎·大模型·信息检索·ai搜索·perplexity·searchgpt
龙骑士baby1 天前
重建 AI 认知第 4 篇:Skill——提示词的系统化封装
ai·大模型·llm·prompt·skill
HyperAI超神经1 天前
深度估计准确率冲上0.9,Meta提出VLM³,论证视觉模型天生会学3D,以Qwen3-VL-4B为基础实现多任务的统一建模
人工智能·3d·大模型·多模态·空间推理·3d感知·3d理解
xixixi777771 天前
空天地通信、高速光模块、AI 智能体攻击、同态加密芯片四大事件解读:AI 算力底座攻防与全域通信同步升级
大数据·人工智能·深度学习·ai·大模型·光模块·智能体
DogDaoDao1 天前
【GitHub】Hermes Agent 深度技术分析
程序员·大模型·github·ai编程·ai agent·智能体·hermers agent