强化学习与思维链

索木木2026-01-11 10:54

一. 强化学习

1.SFT与强化学习

2.RM（奖励模型）

ORM（结果奖励）：标注困难，成本高

PRM（过程奖励）：简单，但存在结果对，过程错的情况。

奖励方法：

基于规则 (Rule-based Rewards)的奖励， deepseek

基于模型（Reward Model)的奖励, openai

PPO：有value Model

GPO: 没有Value Model, 让结果内卷

二. 思维链技术

增强模型推理技术的手段

1）提高token数，2）生成更多个的输出

思维链方法

（1）

iput: prompt

output: W1，W2, W3, R1

（2）并行搜索+自我优化

DeepSeek-R1训练过程

强化学习与蒸馏技术

5.推理模型的未来趋势

上一篇：Rust IO 操作一文全解析

下一篇：rinetd 端口转发工具技术原理

热门推荐

01GitHub 镜像站点 02【OpenClaw 本地实战 Ep.3】突破瓶颈：强制修改 openclaw.json 解锁 32k 上下文记忆 03OpenClaw 使用和管理 MCP 完全指南 04Clawdbot部署教程：解决‘gateway token missing’授权问题的完整步骤 05OpenClaw + 飞书（Feishu）环境搭建指南 06Claude Code + GLM4.7 避坑指南：解决 Unable to connect to Anthropic services 07AI 规范驱动开发“三剑客”深度对比：Spec-Kit、Kiro 与 OpenSpec 实战指南 08Window 10部署openclaw报错node.exe : npm error code 128 09AI Agent 平台横评：ZeroClaw vs OpenClaw vs Nanobot 10OpenClaw优化飞书API 额度已耗尽问题