复旦:LLM隐式推理SIM-CoT

📖标题:SIM-CoT: Supervised Implicit Chain-of-Thought

🌐来源:arXiv, 2509.20317

🌟摘要

隐式思维链 (CoT) 方法为大型语言模型 (LLM) 中的显式 CoT 推理提供了一种有前途的、令牌高效的替代方案,但持久性能差距限制了隐式 CoT 的应用。我们通过缩放隐式 CoT 方法的计算预算来识别核心潜在不稳定性问题:随着我们增加隐式推理标记的数量以提高性能,训练过程通常变得不稳定和崩溃。我们的分析表明,这种不稳定性源于潜在表示变得同质并失去语义多样性,这是现有隐式 CoT 方法中逐步监督不足造成的失败。为了解决这个问题,我们提出了 SIM-CoT,这是一个即插即用的训练模块,它引入了步骤级监督来稳定和丰富潜在的推理空间。具体来说,SIMCoT 在训练期间使用辅助解码器将每个隐式标记与其对应的显式推理步骤对齐,确保潜在状态捕获不同且有意义的信息。在推理过程中去除所提出的辅助解码器,在不增加开销的情况下保持隐式 CoT 方法的计算效率。此外,辅助解码器通过将每个潜在标记投影到显式推理词汇表中来提供隐式推理的可解释性,从而能够逐步可视化语义角色和诊断。SIMCoT 显着提高了各种隐式 CoT 方法的域内准确性和域外稳定性,将 GPT-2 和 CODI 等基线提高了 +8.2%,LLaMA-3.1 8B 上的 Coconut 提高了 +3.0%。证明了强大的可扩展性,SIM-CoT 在 GPT-2 上也比显式 CoT 基线高出 2.1%,令牌效率提高了 2.3 倍,同时大大缩小了 LLAMA-3.1 8B 等较大模型的性能差距。代码:https://github.com/InternLM/SIM-CoT

🛎️文章简介

🔸研究问题:如何提高大语言模型(LLM)在推理过程中的灵活性和效率,同时解决显式思维链方法的局限性?

🔸主要贡献:论文提出了一种名为SIM-CoT的隐式推理方法,通过逐步隐式监督来提升推理的稳定性和表达的丰富性,同时保持推理效率。

📝重点思路

🔸论文首先定义了隐式推理的框架,与现有的方法(如Coconut和CODI)进行了比较。

🔸在训练阶段,模型用解码器对每个隐式潜在向量进行逐步监督,将其与相应的推理内容对齐。

🔸引入了K个推理步骤的设计,模型在隐式阶段运行一固定数量的步骤,在最后生成答案时切换回显式解码。

🔸使用GSM8k-Aug数据集进行训练,数据集中保留了结构化的数学表达式以辅助隐式推理学习。

🔎分析总结

🔸研究发现,当隐式潜在向量的数量过多时,模型的准确性会急剧下降,显示出潜在不稳定问题,能够表明隐式推理对潜在向量数量的敏感性。

🔸通过与其他方法(如Coconut和CODI)的对比,SIM-CoT在多种基准测试上展现了更高的准确率,尤其是在看不见的数据集上,也能较好地泛化。

🔸论文数据显示,SIM-CoT通过逐步隐式监督改善了潜在表示的多样性和稳定性,有效降低了推理成本,同时保持高的推理性能。

💡个人观点

论文引入了逐步隐式监督策略,先在隐变量上做了一定程度的推理然后再解码生成,个人理解是通过对齐来完成部分思考工作,降低解码器难度。

🧩附录


相关推荐
Lee川11 小时前
从零构建智能对话系统:AI Agent 实战指南
人工智能
冬奇Lab12 小时前
一天一个开源项目(第43篇):Star-Office-UI - 像素风格的 AI 办公室看板,让 AI 助手的工作状态可视化
人工智能·开源·资讯
风象南12 小时前
纯文本模型竟然也能直接“画图”,而且还很好用
前端·人工智能·后端
IT_陈寒13 小时前
Vite vs Webpack:5个让你的开发效率翻倍的实战对比
前端·人工智能·后端
摆烂工程师14 小时前
GPT-5.4 发布!再看 OpenClaw:AI 真正危险的,不是更会聊天,而是开始自己“干活”
人工智能·openai·ai编程
飞哥数智坊1 天前
分享被迫变直播:AI·Spring养虾记就这样上线了
人工智能
Mr_Lucifer1 天前
「一句话」生成”小红书“式金句海报(CodeFlicker + quote-poster-generator)
人工智能·aigc·visual studio code
冬奇Lab1 天前
OpenClaw 深度解析(五):模型与提供商系统
人工智能·开源·源码阅读
冬奇Lab1 天前
一天一个开源项目(第42篇):OpenFang - 用 Rust 构建的 Agent 操作系统,16 层安全与 7 个自主 Hands
人工智能·rust·开源
IT_陈寒1 天前
SpringBoot性能飙升200%?这5个隐藏配置你必须知道!
前端·人工智能·后端