打造推理模型的4种方法——李宏毅2025大模型课程第7讲

本节课系统地介绍了如何让大语言模型(LLM)具备"推理"能力,介绍了打造推理模型的4种流派,并介绍了集4种技术流派大成的deepseek R1**。**最后提出了推理模型的挑战在于:推理过程冗长、效率低和成本高。

一、什么是"深度思考"的语言模型、什么是推理?

  • ChatGPT o 系列、DeepSeek-R1、Gemini 2 Flash Thinking、Claude 3.7 Sonnet 是普通用户可直接体验的"深度思考"模型。

  • 什么是推理 :模型在回答前会展示一个可折叠的思考过程(如 [thinking]...[/thinking]),这个过程叫做"推理"(reasoning),包含探索、验证、规划等步骤。

  • 例子:面对"1+1=?"这样的问题,模型会思考"是不是陷阱?二进制里1+1=10",但最终判断用户只是问基础数学,回答"2"。

  • 本质 :这是一种测试时间计算(Testing-Time Compute)行为,即在推理阶段投入更多算力,以换取更高质量答案。1

二、为什么"推理"有效?

  • 核心理念"深度不够,长度来凑" ------ 模型通过生成更长的思考链,模拟更深层的计算。

  • 类比 AlphaGo :不是直接落棋子,而是每次落子前,通过**蒙特卡洛树搜索(MCTS)**模拟不同位置的未来走法,选择最优解。

  • 测试时间缩放(Test-Time Scaling):思考越多,答案通常越好。如下图,每跟线是一样的效果。横轴是增加训练的时间,纵轴是增加test-Time Scaling,可以看到,在小一点的train-time compute中,如果增加test-time compute,也能达到一样的效果2

三、打造「推理」語言模型的4种方法

流派 是否需微调 方法简介 举例/技术
1. 高级提示工程 用复杂Prompt引导模型逐步思考 长链式思考(Long CoT)、Supervised CoT
2. 构建推理工作流 多次生成答案 + 筛选最优 Self-consistency、Best-of-N、Beam Search、MCTS
3. 模仿学习 用高质量推理过程微调模型 教师模型生成推理数据 → 学生模型学习
4. 强化学习(RL) 只看答案对错,训练模型自己探索推理 DeepSeek-R1、Aha Moment 自发涌现

四、关键技术详解

1. 高级提示工程 之链式思考(Chain-of-Thought, CoT)

  • Short CoT:简单提示"Let's think step by step"

  • Long CoT:模型生成详细、结构化的思考过程(如规划、验算、反思),例子见下方截图3

  • 不是所有模型都有能力根据复杂指令做 Long CoT

2. **构建推理工作流------**多次采样与筛选(Generate + Select)

生成多个答案 → 用以下方法选最佳:

  • 多数投票(Self-consistency)

  • 验证器打分(Verifier / Best-of-N)

  • 过程级验证 + Beam Search:每步都验证,保留最优路径

3.模仿学习(imitation learning),

  • 人类教模型学习推理过程,那推理过程哪里来呢?
  • 监督式思维链:使用标注的推理过程训练模型。这是一种非常昂贵的方式,标注高质量的推理过程很耗费人力,可以让模型自己多次生成推理过程,从正确答案往回找,确认哪些推理步骤是正确的,再用这些推理过程拿来训练。
  • Math-Shepherd:无需人工标注,自动验证与强化推理步骤。
  • rStar-Math:生成并验证每一步推理过程。
  • 知识蒸馏:从大模型压缩知识到小模型。

4.强化学习:结果导向

  • 只奖励最终答案正确与否,过程不重要

  • 模型自发学会自我纠错、反思、验证(Aha Moment)

  • 缺点:推理过程可读性差、语言混杂 → 需后续模仿学习优化


五、典型案例:DeepSeek-R1 系列

deepseek-R1则是以上4种技术的集大成

阶段 方法 说明
R1-Zero 纯RL 只以答案正确为奖励,推理过程自发涌现
R1 RL + 模仿学习 用R1-Zero生成数据 → 人工筛选 → 微调 → 再RL优化
蒸馏版 模仿学习 用R1生成的数据教小模型(如Qwen-32B),效果优于直接RL

六、挑战与未来方向

1.当前问题

  • 推理过程冗长:模型会反复验算已正确的答案,浪费算力

  • 成本高:长推理链消耗大量Token与计算资源

  • 效率低:模型不会判断"是否需要深度思考"

2.未来方向

  • 自适应推理:简单题快速答,难题才深度思考

  • 高效搜索算法:更快找到最优推理路径

  • 推理剪枝:减少无意义的重复验证


七、总结一句话

推理模型的核心不是"变聪明",而是"愿意多想几步"

通过测试时间计算 ,我们让模型模拟更深层的思考过程

RL + 模仿学习 + 工作流的融合,正是打造下一代"会思考"的AI的关键路径。

参考文章

1 Alphago https://www.nature.com/articles/nature16961

2Scaling Scaling Laws with Board Games https://arxiv.org/abs/2104.03113

3Long CoT https://arxiv.org/abs/2503.09567

相关推荐
冬奇Lab12 分钟前
Agent 系列(11):A2A 协议——Agent 与 Agent 如何协作
人工智能·agent
snow@li15 分钟前
AI:理解 大数据、算法、算力、电力、生成式AI、token 之间的关系
大数据·人工智能·算法
冬奇Lab16 分钟前
每日一个开源项目(第120篇):SkillLens - 微软出品,照亮 AI Agent 技能生命周期的“显微镜”
人工智能·开源·资讯
qingyulee22 分钟前
深度学习介绍、pytorch框架
人工智能·深度学习
oort12331 分钟前
VLStream:全开源决策式AI视频平台,赋能企业构建自主可控、降本增效的智能视觉应用介绍
大数据·开发语言·人工智能·开源·音视频·数据库架构
Agent_Sea32 分钟前
IDC/Omdia/Gartner AI平台排名可信度穿透判断:第三方数据该怎么读
人工智能·大模型·ai平台
视***间32 分钟前
算力筑基,智领人形机器人新时代 —— 英伟达 × 宇树科技携手推进具身智能,视程空间基于 NVIDIA 全栈算力产品助力机器人产业落地
人工智能·机器人·nvidia·机器狗·gpt-oss·视程空间·宇树机器人
EAIReport1 小时前
Spring AI 详解:Java 开发者快速落地 AI 应用
java·人工智能·spring
人工智能AI技术1 小时前
【VibeCoding系列教程07】 零代码平台——Bolt.new
人工智能
深蓝电商API1 小时前
大模型 + 爬虫 = ?我用 AI 做了一个自适应反反爬引擎
人工智能·爬虫