腾讯AI Lab与上交大探索模型“过度”思考

自OpenAI推出o1模型后,其多路&长链推理与复杂规划能力对于系统②·慢思考范式的建立提供了一种从train-time到test-time scaling law的延展。o1模型通过模拟人类深度思考过程,在思维链中运用自我反思、纠错以及探索多种解法等推理策略,延展了强大的推理性能,从而能够持续优化答案质量。然而,随着o1模型的广泛应用,一个潜在问题亦逐渐凸显出来,即"过度思考"。

近期,国内外许多类似o1的模型也陆续出现,比如Qwen团队近期开源的QwQ-32B-Preview,Deepseek推出的R1-Preview等模型。这些模型在推理时同样具备 "深度思考" 的特性,但也暴露出了类似的问题:在不必要的情况下生成过长的思维链反而浪费了计算资源。如论文标题的例子:"2+3=?"...

本篇论文的目的之一即是对这种"过度思考"对不同问题与任务在不同场景应用中展开系统性分析并尝试建立针对Outcome Efficiency与Process Efficiency的"过度"定义。

同时,论文亦提出了缓解"过度"思考的一系列数据样本构造及模型优化方法,包括:

Shortest Response:使用模型采样结果中最短的生成结果作为正样本。

First-Correct Solutions, FCS:使用模型采样结果中最短的首次得到正确答案的解答作为正样本,抛弃所有后续的思考。

FCS+Reflection:由于绝大多数的采样结果都是在第一个解答中就出现了正确答案,仅保留首个正确回答可能会使得模型退化,因此研究者们在第一次得到正确答案后,额外保留了一轮反思的内容。Greedily Diverse Solutions,GDS:除了单纯地对长度进行控制,另一个优化思路是尽可能保留更多样化的思考轨迹,因此研究者们在 FCS 方法的基础上,尽可能多地保留了包含不同推理策略的解答。

基于以上几种偏好数据,研究者们尝试了最基础的 SFT 以及多种偏好优化算法,如 DPO,RPO以及 SimPO,实验结果大家可参考原论文。

不过我想这也仅是刚刚开始,在现实世界复杂而多样的应用场景中,甚至于未来不同定义下的AGI,这种差异化的思考模式所带来的不同推理生成结果,也许会成为llm迈向并建立另一条模型通用能力上的助推器,而潜在的隐式CoT也许会在其中起着某种微妙的调和或平衡作用。

相关推荐
2601_957888561 分钟前
短视频矩阵系统的AI调度引擎架构解析:从多平台API到智能分发的技术实现
人工智能·矩阵·音视频
m0_687247522 分钟前
AI绘画零基础:从文字到图像的完整指南
人工智能·ai作画·aigc
dxxt_yy4 分钟前
通信对抗新利器:HWG1在铁路高速领域的卓越应用
人工智能·信息与通信
Rocky Ding*4 分钟前
昔日AI绘画框架王者Stable Diffusion WebUI,已死
人工智能·深度学习·机器学习·chatgpt·ai作画·stable diffusion·aigc
localbob4 分钟前
Anima二次元动漫必备大模型教程|20亿参数Anima模型+ComfyUI工作流下载 Anima模型下载、Anima动漫模型、AI绘画模型推荐、动漫AI绘画、ComfyUI工作流、AI游戏美术
人工智能·ai作画·游戏美术
2601_957787586 分钟前
2026年自媒体矩阵系统技术观察:当“人海战术“退场,AI如何重构内容分发逻辑?
人工智能·矩阵·媒体
格桑阿sir12 分钟前
01-大模型智能体开发工程师:AI与大模型发展简史
人工智能·ai·llm·agent·智能体·发展史
threelab13 分钟前
Three.js 抽象艺术着色器效果 | 三维可视化 / AI 提示词
前端·javascript·人工智能·3d·着色器
解局易否结局13 分钟前
GE 和 Runtime:不是上下游,是协同决策
人工智能·pytorch·深度学习
qq74223498416 分钟前
全面深入的C#核心知识体系与编程实践精要——从语法基础到高级特性系统学习指南
java·算法·c#