快手&南大联合发布自适应推理框架HiPO，突破LLM“过度思考”困局

当用户向大语言模型提出一个简单问题，比如"单词HiPPO里有几个字母P？"，它却正襟危坐，开始生成一段冗长的推理链："首先，让我们分析HiPPO这个词，河马的英文单词为hippo，河马是一种半水生哺乳动物，这里用户用了大写字母，可能有特殊的含义，对于单词HiPPO，我们可以将其拆分为H-i-P-P-O，字母P出现在第3与第4个位置，因此有2个字母P...让我们简化问题，HiPO可以拆分为..." ------ 面对这样的"严谨"，用户难免哭笑不得，既浪费了计算资源，也增加了等待时间，甚至更坏的情况是模型被自己冗长的推理链"绕晕了过去"，最终给出了错误的答案，用户只得捶胸顿足地大喊："这合理吗？"

这种现象，正是当前追求强大推理能力的LLM们普遍面临的"过度思考"（Overthinking）困境。无论是数学计算、代码生成还是逻辑问答，模型似乎习惯了"启动即深思"的模式，即使面对本可直观回答的简单问题，也要展开一番链式思考（Chain-of-Thought, CoT），导致token使用量激增、推理延迟变长、部署成本高昂。如何在保持复杂问题解决准确性的同时，避免在简单任务上"空转"、在复杂任务上高效"运转"，成为LLM走向实用化的一大关键挑战。

如今，快手 KwaiKAT 团队与南京大学刘佳恒老师 NLINK，张煜群教授实验室 ARiSE 合作重磅推出HiPO（Hybrid Policy Optimization）框架，为LLM装上了智能的"思考开关"。该框架通过创新的混合数据冷启动与混合强化学习奖励系统，使模型能够自主、动态地决策何时该启动详细推理（Think-on），何时该直接给出答案（Think-off）。

这不仅显著提升了推理效率，更在多个核心基准测试上实现了准确率的同步提升，为构建高效、实用的下一代推理大模型提供了解决方案。

论文链接：arxiv.org/abs/2509.23...

项目链接：huggingface.co/Kwaipilot/H...

一、困境之源：LLM的"思考"代价与"过度思考"顽疾

大语言模型在复杂认知任务上的巨大成功，很大程度上归功于链式思考（CoT）推理范式的引入。让模型像人一样"一步一步想问题"，极大地提升了其在数学、编程、科学问题解决等领域的表现。然而，这套强大的推理机制也带来了"认知惯性"：模型倾向于对所有问题都"一视同仁"地进行深度推理。

效率与成本的矛盾：始终生成冗长的推理轨迹是低效的。它直接转化为极高的Token使用量，意味着更慢的响应速度（延迟）和更昂贵的API调用或自建推理成本。在追求交互体验和成本控制的真实应用场景中，这成为了一个致命的短板。
"过度思考"的普遍性：近期多项研究都明确指出，LLM存在普遍的过度思考现象。即使是最先进的模型，也常常在简单问题上"小题大做"，生成大量冗余推理步骤，造成了计算资源的巨大浪费。在复杂问题上，模型也常常出现反复冗余思考的现象，导致回答出错。

现有的解决方案试图缓解这一问题，但各有局限：

基于训练的自适应推理：通过强化学习（RL）引入长度惩罚或简洁性奖励，或通过监督微调（SFT）偏好更短的推理。但这类方法信号粗糙，可能因单调的"缩短"激励而损害模型处理难题的能力。
外部控制：通过精心设计的提示词或动态指令来限制推理步骤。这种方法灵活但依赖人工设计，难以规模化且泛化能力存疑。
事后优化：在推理链生成后进行剪枝或重构。这属于"事后补救"，无法从根源上改变模型的思考模式。

核心问题在于，缺乏一个原则性的机制，来精细地平衡准确性、回答效率之间的权衡，让模型学会"具体问题，具体分析"。

二、HiPO破局之道：双轮驱动的"智能思考开关"

HiPO框架的核心思想是将"是否思考"的决策权交给模型自身，并通过系统性的训练方法，确保其决策的智能性与平衡性。其创新性主要体现在两大核心组件上：

组件一：混合数据冷启动------为模型装上"智能思考开关"

要让模型学会选择，首先需要让它见识过"思考"和"不思考"两种模式下的高质量回答是什么样的。HiPO设计了一套精密的自动化数据构建流程，并使用混合数据进行冷启动。

数据收集与分类：研究团队整合了多个高质量的公开及专有数学与代码推理数据集（如AM-Thinking-v1-Distilled, AceReason-Math, II-Thought-RL, Skywork-OR1-RL-Data），构建了一个高质量的训练语料库。

2.双模式响应生成与优选：对于每个问题，使用一个强大的推理模型（如DeepSeek-V3）分别生成N个"Think-on"（带推理）和N个"Think-off"（直接回答）的响应。然后，自动验证所有回答的正确性。

关键优选策略：比较两种模式的通过率（Pass Rate）。如果"Think-on"模式的通过率显著高于"Think-off"，则选择"Think-on"模式；反之则选择"Think-off"。特别巧妙的是，当两种模式通过率相差无几（低于阈值δ）时，策略会倾向于选择"Think-off"模式。这一设计直接鼓励模型在深度思考不能带来明显收益时，优先选择更简洁的回答，从数据源头注入效率意识。
最短正确响应：在获胜的模式下，选择最短的正确响应作为最终样本，进一步强化简洁性。

3.引入模式解释信号：为了强化模型对模式选择的理解，HiPO还引入了一个辅助解释信号。对于每个优选出的问答对，会使用DeepSeek-V3生成一段理由（Justification），解释"为什么这个问题适合（或不适合）进行深度推理"。这为模型提供了宝贵的元认知信号，帮助其将模式选择与问题内在的复杂性对齐。

这套管道最终产出的数据，每条都包含了问题、最终回答、以及关于思考模式的理由。在这些数据上对模型进行冷启动，使得模型初步具有了"智能思考"的能力。

组件二：混合强化学习奖励系统------精细化引导模型的"决策天平"

有了高质量的数据进行"冷启动"（Cold-Start）训练后，HiPO通过一个设计精巧的混合强化学习（RL）阶段，对模型进行微调，使其决策能力臻于完善。该奖励系统的核心目标是防止模型过度依赖看似更可靠的"Think-on"模式，实现真正的自适应。

基础奖励：每个生成的回答会根据其答案正确性（ACC）和格式正确性（FORMAT）获得一个基础奖励分。
偏差调整机制------防止"思考"惯性：这是HiPO的一个关键创新。由于"Think-on"模式通常更准确，模型在RL过程中容易产生偏向，无论问题难易都选择"思考"。为了解决这一问题，HiPO引入了动态的偏差调整机制。

它会计算"Think-on"模式响应的平均奖励，然后为"Think-off"模式设定一个偏置项（bias_off），该偏置项是"Think-on"平均奖励的一个比例（由ω控制，通常设为0.01）。
当"Think-off"模式的性能不显著优于"Think-on"，但差距在一定范围内时，会启动调整，适当提升"Think-off"模式的评估得分。
这一机制有效防止了模型通过"无脑"选择冗长推理来获取奖励的投机行为，确保了训练稳定性，并维护了深度与效率之间的 intended balance。

混合优势函数------双重监督：HiPO设计了两个独特的优势（Advantage）函数来提供更精细的指导信号：

评判优势（A_judge）：关注于模式选择的合理性。它结合了"所选模式的全局平均优势"和"当前响应在其模式内的相对质量"，确保模型选择某个思考模式的理由（即之前生成的Justification）与其实际表现一致。
回答优势（A_answer）：聚焦于回答本身的质量。它在同一思考模式内进行局部归一化，鼓励模型在既定模式下生成更好的回答，而不与模式选择的偏好混淆。

最终，这两个优势信号被分别赋予给回答中对应的"理由"部分和"答案"部分的每个令牌，实现令牌级别的精细化优化。整个RL过程采用类似PPO的算法，在最大化期望奖励的同时，约束策略更新幅度，防止偏离太远。

三、实验结果：不仅更快，而且更准

HiPO在基于Qwen3系列模型（如8B参数版本）的实验中，取得了令人瞩目的成果。在AIME2024/2025、HumanEval、LiveCodeBench（v6）、MATH-500、GPQA-Diamond等多个权威基准测试上，与多种基线方法进行了全面对比，并进行了充分的消融实验。

显著提升效率：与仅使用"Think-on"数据训练的模型相比，最终HiPO模型在平均令牌长度上减少了30%，思考率（RatioT）降低了37%。这意味着模型在处理大量问题时，能智能地跳过不必要的推理，直接输出答案，带来了实实在在的成本和延迟收益。
同步提升准确率：更令人惊喜的是，HiPO在实现效率飞跃的同时，平均准确率提升了6.3%。这证明其自适应机制不仅没有损害性能，反而通过优化决策，让模型在难题上更"专注"地思考，在简单题上更高效地回答，实现了双赢。
超越现有方法：实验表明，HiPO在准确性和效率的综合表现上，优于AdaptThink、AutoThink等现有的自适应推理方法。

动态决策分析：研究团队还深入追踪了模型在训练和推理过程中的行为演变。

如上图(a)所示，随着RL训练的进行，模型激活"Think-on"和"Think-off"的频率差距逐渐缩小，从初期的89.5%降至最终的53.1%，说明模型确实学会了更精细地切换模式。
上图(b)显示，在不同数据集上，模型的思考模式激活率与任务特性高度相关。在AIME2024、LiveCodeBench等需要强推理的任务上，"Think-on"率始终保持在70%以上；而在HumanEval等相对简单的代码任务上，"Think-on"率则随训练明显下降，体现了良好的任务适应性。

上图(a)和上图(b)清晰地展示了RL训练过程中以及在不同数据集上，模型输出令牌数量的持续下降趋势，直观反映了HiPO在提升效率方面的有效性。

强泛化性：HiPO的成功不仅在Qwen3-8B上得到验证，在Qwen3-1.7B和Qwen3-32B等不同规模的模型上也展现出一致的性能提升，证明了其方法的普适性。

四、未来展望：HiPO如何重塑高效LLM生态

HiPO框架的提出，不仅仅是一项技术突破，更是为LLM的发展方向提供了一个重要的思路转变：从一味追求"更强思考"到追求"更智能地思考"。

推动LLM实用化落地：对于需要大规模部署LLM的应用（如搜索引擎、智能客服、代码助手），HiPO能直接降低计算成本和响应延迟，使高性能LLM服务变得更加"亲民"。
为模型轻量化提供新路径：通过让模型学会"停止思考"，可能在保持相当性能的前提下，为模型压缩和蒸馏开辟新的可能性。
增强模型的"元认知"能力：HiPO训练模型对自身认知过程进行监控和决策，这是向具备更高层次智能的AI系统迈出的重要一步。

结语

当大语言模型陷入"为思考而思考"的认知惯性时，其巨大的潜力被低效的运作方式所束缚。快手与南大团队的HiPO框架，如同一位高明的教练，不是粗暴地限制模型的"思考"，而是教会它判断"何时该深思熟虑，何时可一击即中"。这项研究巧妙地平衡了推理的"质"与"效"，为构建真正高效、可靠、适用于真实世界的下一代人工智能助手奠定了坚实的基础。在LLM竞速发展的下半场，"智能效率"或许将是比"暴力计算"更重要的决胜筹码。

目前，HiPO的相关模型和资源已在Hugging Face平台开源，供社区研究和使用。

快手&南大联合发布自适应推理框架HiPO，突破LLM“过度思考”困局

一、困境之源：LLM的"思考"代价与"过度思考"顽疾​​

二、HiPO破局之道：双轮驱动的"智能思考开关"​​

​​组件一：混合数据冷启动​​------为模型装上"智能思考开关"

组件二：混合强化学习奖励系统------精细化引导模型的"决策天平"​​

三、实验结果：不仅更快，而且更准​​

四、未来展望：HiPO如何重塑高效LLM生态​​

​​结语​​