强化学习与思维链

一. 强化学习

1.SFT与强化学习

2.RM(奖励模型)

ORM(结果奖励):标注困难,成本高

PRM(过程奖励): 简单, 但存在结果对, 过程错的情况。

  1. 奖励方法:

基于规则 (Rule-based Rewards)的奖励, deepseek

基于模型(Reward Model)的奖励, openai

  1. PPO:有value Model
  1. GPO: 没有Value Model, 让结果内卷

二. 思维链技术

  1. 增强模型推理技术的手段

1)提高token数,2)生成更多个的输出

  1. 思维链方法

(1)

iput: prompt

output: W1,W2, W3, R1

(2)并行搜索+自我优化

  1. DeepSeek-R1训练过程
  1. 强化学习与蒸馏技术

5.推理模型的未来趋势

相关推荐
Flying pigs~~4 小时前
Agent 完整面试指南:原理、框架、架构模式
大模型·prompt·agent·rag·agent架构·人工只能
xixixi777777 小时前
三重筑基:5G-A超级上行提速千兆,电联低频共享扫平盲点,800V HVDC算电协同破局
人工智能·5g·ai·大模型·算力·通信·信通院
Resistance丶未来8 小时前
GPT-5.5 深度评测:性能边界与实战价值全解析
gpt·大模型·api·claude·gemini·api key·gpt5.5
ACCELERATOR_LLC11 小时前
【DataWhale组队学习】DIY-LLM Task6 评估与基准测试
人工智能·深度学习·大模型·模型评估
CoderJia程序员甲11 小时前
GitHub 热榜项目 - 日榜(2026-04-29)
ai·大模型·github·ai教程
IT届小白13 小时前
Medical-Qwen3-14B基于Ollama内网私有化部署方案
人工智能·大模型
GoAI16 小时前
《深入浅出Agent》:项目深度解析Autoresearch
人工智能·深度学习·大模型·llm·agent
OpenCSG17 小时前
Kimi K2.6:月之暗面发布的原生多模态智能体模型
人工智能·开源·大模型·ai技术·kimi k2.6
Fleshy数模17 小时前
本地部署 Qwen2.5-1.5B-Instruct 全流程教程|Ollama + 魔搭双方案
python·语言模型·大模型·本地部署
CoderJia程序员甲17 小时前
GitHub 热榜项目 - 日榜(2026-04-28)
人工智能·ai·大模型·github·ai教程