复杂任务攻坚：多模态大模型推理技术从 CoT 数据到 RL 优化的突破之路

注：此文章内容均节选自充电了么创始人，CEO兼CTO陈敬雷老师的新书 《GPT多模态大模型与AI Agent智能体》（跟我一起学人工智能）【陈敬雷编著】【清华大学出版社】

文章目录

GPT多模态大模型系列一
- [复杂任务攻坚：多模态大模型推理技术从 CoT 数据到 RL 优化的突破之路](#复杂任务攻坚：多模态大模型推理技术从 CoT 数据到 RL 优化的突破之路)
- - 多模态大模型推理技术研究总结
  - - 一、背景与研究演进
    - 二、基于推理数据与搜索的方法
    - - [1. Llava-CoT：结构化推理阶段与束搜索优化](#1. Llava-CoT：结构化推理阶段与束搜索优化)
      - [2. MPO：混合偏好优化与成对CoT数据构建](#2. MPO：混合偏好优化与成对CoT数据构建)
      - [3. Mulberry：基于蒙特卡洛树搜索的反思推理](#3. Mulberry：基于蒙特卡洛树搜索的反思推理)
    - 三、基于强化学习的方法
    - - [1. StepGRPO：分步分组相对策略优化](#1. StepGRPO：分步分组相对策略优化)
      - [2. Reason-RFT：任务自适应软奖励函数设计](#2. Reason-RFT：任务自适应软奖励函数设计)
      - [3. OpenVLThinker：迭代自我改进框架](#3. OpenVLThinker：迭代自我改进框架)
    - 四、当前方法的挑战与局限
    - 五、未来研究方向
    - 六、AI大模型学习资源补充
    - 总结
  - 更多技术内容
总结

GPT多模态大模型系列一

复杂任务攻坚：多模态大模型推理技术从 CoT 数据到 RL 优化的突破之路

多模态大模型推理技术研究总结

一、背景与研究演进

多模态大模型在视觉问答、图像描述等传统任务中已展现出良好效果，随着OpenAI-O1、DeepSeek-R1等模型的推出，业界对多模态大模型推理能力的关注日益提升。当前研究大致经历两个阶段：O1推出后，研究聚焦于基于推理数据和搜索的方法，通过Prompting或搜索构建符合规律的思维链（CoT）数据并微调模型；R1推出后，更多研究转向基于奖励函数的强化学习方法，通过结果导向优化模型推理过程。

二、基于推理数据与搜索的方法

1. Llava-CoT：结构化推理阶段与束搜索优化

核心方法：将推理过程拆解为四个固定阶段------Summary（问题回顾与策略规划）、Caption（图像信息提取）、Reasoning（分步推理）、Conclusion（结果总结）。利用GPT-4o生成100K结构化SFT数据（Llava-CoT-100K），并在推理阶段引入Stage-level Beam Search，每个阶段保留多个推理路径，通过模型验证选择最优路径。
实验效果：在MMStar等基准测试中，Llava-CoT相比基础模型（Llama-3.2-11B-Vision-Instruct）平均提升7.8个百分点，Stage-level Beam Search（BS=2）进一步将性能提升至63.1%。结构化标签（如）能有效引导模型聚焦当前阶段生成。

2. MPO：混合偏好优化与成对CoT数据构建

核心方法：与Llava-CoT直接生成SFT数据不同，MPO构建成对CoT数据进行偏好优化。对有标准答案的任务，生成多推理路径，正确结果为正样本、错误为负样本；对无标准答案的任务，将完整生成数据作为正样本，截断后让模型续写的结果作为负样本。训练时引入混合损失函数（L = w_pL_p + w_qL_q + w_gL_g），包含DPO损失、质量损失和SFT损失。
实验验证：MPO在Internvl2-8B模型上优于单纯SFT，直接使用CoT Prompting可能导致性能下降，而经过MPO微调的模型可显著提升推理能力。

3. Mulberry：基于蒙特卡洛树搜索的反思推理

核心方法：提出集体蒙特卡洛树搜索（CoMCTS），分扩展（Expansion）、模拟与错误定位（Simulation）、反向传播（Backpropagation）、选择（Selection）四个阶段。通过多模型生成推理路径，筛选高分节点并构建包含反思的CoT数据（如在错误节点后添加反思Prompt），用于SFT微调。
实验结果：引入反思数据后，Math Vista任务性能从50.9%提升至51.7%，验证了反思机制对推理链优化的有效性。

三、基于强化学习的方法

1. StepGRPO：分步分组相对策略优化

核心方法：在GRPO基础上，通过分步奖励（StepRAR和StepRVR）约束推理过程。StepRAR从CoT数据中提取关键步骤（如"AD是中线""面积平分"等），通过软匹配计算奖励；StepRVR要求推理包含描述、步骤、答案三部分且顺序正确，确保逻辑连贯性。
实验 ablation：在Qwen2-VL-7B模型上，仅StepRAR使Math Vista性能提升至61.2%，结合StepRVR进一步提升至63.5%，优于SFT和传统GRPO。

2. Reason-RFT：任务自适应软奖励函数设计

核心方法 ：根据任务特性设计三类奖励函数：
- 离散值精度奖励（如计数任务）：结果完全一致才得1分；
- 数学精度奖励（如实数计算）：引入余弦函数容忍误差，当|a_pred - a_gt|在ε1·|GT|与ε2·|GT|之间时，按比例给分；
- 函数型精度奖励（如变换序列）：允许部分匹配（方法名、作用对象、值），按匹配度计算奖励。
应用场景：在几何推理、空间变换等任务中，软奖励机制使模型更适应数值波动和部分正确情况。

3. OpenVLThinker：迭代自我改进框架

核心方法：结合SFT与RL多轮迭代优化。首先通过caption模型和文本推理模型生成SFT数据，微调基础模型；然后用GRPO进行强化学习，生成新一轮SFT数据；重复迭代至性能饱和。
实验突破：7B模型经3轮迭代后，在MathVista上性能接近72B模型，验证了数据迭代对模型能力提升的有效性。

四、当前方法的挑战与局限

泛化性不足：结构化SFT方法（如Llava-CoT的四阶段）在多图交错或简单问题中适用性有限，强行拟合固定模式可能加重模型幻觉。
多模态动机缺失：现有RL方法（如StepGRPO）的奖励函数仅针对文本推理，未直接优化多模态理解本身，缺乏对图像、视频等模态特征的显式约束。
RL机理研究薄弱：尽管RL在推理任务中表现出更强泛化性，但其为何优于SFT的理论机制尚未明确，缺乏系统性分析。
跨任务迁移受限：当前实验多局限于同类型任务不同领域图片，RL对未见过任务类型的迁移能力仍需验证。

五、未来研究方向

通用推理框架设计：探索不依赖固定阶段的动态推理流程，适应多模态场景的多样性（如多图、视频、3D场景）。
多模态联合优化：将视觉特征理解与文本推理结合，设计跨模态奖励函数（如视觉-文本对齐度），强化模型对多源信息的整合能力。
RL理论基础研究：分析RL在多模态推理中提升泛化性的本质原因，如策略更新机制、探索-利用平衡对推理链生成的影响。
跨任务迁移学习：构建跨模态、跨任务的推理评测体系，研究RL方法在医疗、机器人控制等复杂场景中的迁移能力。

六、AI大模型学习资源补充

文章末段提及系统学习AI大模型的资源，包括学习路线图（从Prompt工程到模型微调）、经典书籍（如《大模型应用开发极简入门》《LangChain入门指南》）、视频教程（深度学习基础、Transformer原理）、项目实战（智能问答系统、虚拟上装等）及面试题库。这些资源为技术落地提供了实践支撑，但核心仍需围绕多模态推理等前沿技术深化理论与工程能力。

总结

多模态大模型推理技术正从结构化数据驱动向动态优化演进，推理数据与搜索方法通过构建高质量CoT数据提升模型逻辑链生成能力，而强化学习方法则通过灵活奖励函数激发模型自适应推理潜力。未来需在泛化性、多模态融合及理论机理等层面突破，推动多模态大模型在复杂现实任务中的落地应用。

总结

此文章有对应的配套新书教材和视频：

新书特色：《GPT多模态大模型与AI Agent智能体》（跟我一起学人工智能）是一本2025年清华大学出版社出版的图书，作者是陈敬雷，本书深入探讨了GPT多模态大模型与AI Agent智能体的技术原理及其在企业中的应用落地。

全书共8章，从大模型技术原理切入，逐步深入大模型训练及微调，还介绍了众多国内外主流大模型。LangChain技术、RAG检索增强生成、多模态大模型等均有深入讲解。对AI Agent智能体，从定义、原理到主流框架也都进行了深入讲解。在企业应用落地方面，本书提供了丰富的案例分析，如基于大模型的对话式推荐系统、多模态搜索、NL2SQL数据即席查询、智能客服对话机器人、多模态数字人，以及多模态具身智能等。这些案例不仅展示了大模型技术的实际应用，也为读者提供了宝贵的实践经验。

本书适合对大模型、多模态技术及AI Agent感兴趣的读者阅读，也特别适合作为高等院校本科生和研究生的教材或参考书。书中内容丰富、系统，既有理论知识的深入讲解，也有大量的实践案例和代码示例，能够帮助学生在掌握理论知识的同时，培养实际操作能力和解决问题的能力。通过阅读本书，读者将能够更好地理解大模型技术的前沿发展，并将其应用于实际工作中，推动人工智能技术的进步和创新。

【配套视频】

GPT多模态大模型与AI Agent智能体书籍本章配套视频 - 第1章大模型技术原理【陈敬雷】

视频特色： 前沿技术深度解析，把握行业脉搏

揭秘 DeepSeek、Sora、GPT-4 等多模态大模型的技术底层逻辑，详解 Transformer 架构如何突破传统神经网络局限，实现长距离依赖捕捉与跨模态信息融合。

对比编码预训练（BERT）、解码预训练（GPT 系列）及编解码架构（BART、T5）的技术差异，掌握大模型从 "理解" 到 "生成" 的核心逻辑。
实战驱动，掌握大模型开发全流程

提示学习与指令微调：通过 Zero-shot、Few-shot 等案例，演示如何用提示词激活大模型潜能，结合 LoRA 轻量化微调技术，实现广告生成、文本摘要等场景落地（附 ChatGLM3-6B 微调实战代码）。

人类反馈强化学习（RLHF）：拆解 PPO 算法原理，通过智谱 AI 等案例，掌握如何用人类偏好优化模型输出，提升对话系统的安全性与实用性。
智能涌现与 AGI 前瞻，抢占技术高地

解析大模型 "智能涌现" 现象（如上下文学习、思维链推理），理解为何参数规模突破阈值后，模型能实现从 "量变" 到 "质变" 的能力跃升。

前瞻通用人工智能（AGI）发展趋势，探讨多模态模型（如 Sora）如何推动 AI 从 "单一任务" 向 "类人智能" 进化，提前布局未来技术赛道。

上一篇：《GPT多模态大模型与AI Agent智能体》系列一》大模型技术原理 - 大模型技术的起源、思想
下一篇：DeepSeek大模型技术系列五》DeepSeek大模型基础设施全解析：支撑万亿参数模型的幕后英雄

复杂任务攻坚：多模态大模型推理技术从 CoT 数据到 RL 优化的突破之路

文章目录

GPT多模态大模型系列一

复杂任务攻坚：多模态大模型推理技术从 CoT 数据到 RL 优化的突破之路

多模态大模型推理技术研究总结

一、背景与研究演进

二、基于推理数据与搜索的方法

1. Llava-CoT：结构化推理阶段与束搜索优化

2. MPO：混合偏好优化与成对CoT数据构建

3. Mulberry：基于蒙特卡洛树搜索的反思推理

三、基于强化学习的方法

1. StepGRPO：分步分组相对策略优化

2. Reason-RFT：任务自适应软奖励函数设计

3. OpenVLThinker：迭代自我改进框架

四、当前方法的挑战与局限

五、未来研究方向

六、AI大模型学习资源补充

总结

更多技术内容

总结