快手 AutoThink 大模型 KAT-V1 正式开源，40B 版本比肩满血版 R1，技术报告全公开！

近日，快手发布并开源了KAT-V1 自动思考（AutoThink）大模型，这是一款融合思考与非思考能力、并且可以根据问题难度自动切换思考形态的模型。

KAT-V1模型共有40B和200B两个版本。在自动思考模式下，40B版本的性能可追平今年5月发布的新版DeepSeek-R1（参数量为6850亿）。而200B版本的模型，则在多项基准测试中超过了Qwen、DeepSeek和Llama这三大开源模型家族中的旗舰模型。

值得一提的是，在号称无法作弊的竞赛级实时基准测试 LiveCodeBench Pro上，KAT-V1也以40B的参数成功跻身于闭源模型之列，超越一众思考/非思考的开源模型：

快手Kwaipilot团队在技术报告中，揭秘了KAT-V1模型背后的多项技术创新。

该团队不仅提出了一种全新的长短思考混合模型训练范式，还基于传统强化学习算法（GRPO），提出了带有新型强化学习方法Step-SRPO，进一步提升了模型输出token的思考密度以及对是否应该开启思考模式的判断力。

在部分基准测试中，即使模型自我选择不开启思考模式，受益于融合训练方法和推理模板，性能也有小幅上涨。

KAT-V1模型家族的40B版本已在开源模型托管平台Hugging Face上线。技术报告透露，200B版本的MoE模型仍在训练过程中。同时，用户也可在快手打造的AI研发助手Kwaipilot中体验到这一模型。

模型开源地址：huggingface.co/Kwaipilot/K...

技术报告地址：arxiv.org/pdf/2507.08...

模型海外试用地址：kwaipilot.ai/search

一、推理模型过度思考问题凸显，如何让AI学会自主判断？

自OpenAI推出o系列模型以来，通过工程设计和后训练技术，让模型在回答问题前进行更深入的思考、推理和规划，已经成为智能水平提升的重要路径。

然而，在实际体验中，推理模型"凡事都要先思考"的运行模式，演变成了"过度思考"的问题：模型机械地展开冗长的推理链，缺乏灵活的判断能力。

在问及简单事实性问题时，推理模型也会过度思考

推理模型的这种思考模式，其实与人类日常的思考模式大相径庭，人类往往先基于直觉或经验做出快速判断，再在需要时进行深入的思考。

"过度思考"现象不仅显著拉长了响应时间，让用户感到"笨重"、"迟钝"，还会在问及简单事实性问题时带来明显负面体验。对于需要快速、直接反馈的场景（如客服问答、代码调试），这种延迟会降低满意度和使用意愿。

同时，大模型"过度思考"还会显著增加推理所需的计算资源和能源消耗，导致运算成本上升。对面向C端的大规模部署来说，这种浪费尤为突出。

为了"显得在思考"，模型还有可能在中间步骤生成并不准确或逻辑矛盾的内容。这些内容若被用户误解为可靠推理，反而增加了错误决策的风险。

已经有不少模型厂商注意到了"过度思考"的挑战。谷歌为Gemini引入了思考预算组件，允许开发者选择模型的思考长度；Anthropic则将Claude 4模型做成了混合推理模型，用户无需切换模型，即可自主选择是否开启推理。

不过，上述流程仍需要人类的参与和配置。要更为系统性地解决推理模型的"过度思考"问题，研究者还需要探索如何让模型根据任务复杂度自主决定是否思考，实现更灵活、高效的人机协作。

快手Kwaipilot团队已在今年6月初发布了上述问题的初步解决方案------KwaiCoder-AutoThink-preview，虽然名字是Coder但具备通用模型能力，KAT-V1在其基础之上针对推理能力进行了重点优化。

二、高质量数据+模型知识蒸馏+MTP，1/30成本完成模型的冷启动

KAT-V1模型由Qwen2.5-32B扩展而来，通过分层定向扩展的策略，将模型参数量有选择地扩展到40B，减少了无效的参数增长，实现规模与计算效率的平衡。

在KAT-V1模型的预训练阶段，Kwaipilot团队构造了大量的思考/非思考数据。对于非思考数据，为了保证问题的广泛性，他们从预先收集的5TB tokens预训练数据中，抽取出部分带有推理特征、具有一定难度的多领域数据。

思考数据则使用一个Agentic框架来合成。该框架由解答者（solver）、思考者（thinker）和评论者（critic）组成。解答者先提供初步答案，思考者对解决方案进行反思和迭代改进，评论者对整个流程进行监督，以保证逻辑一致性和输出质量。

这一框架可在一定程度上提升合成数据的质量------只有经过核验的高质量合成数据才能被保留，并转化为长思维链（long-CoT）数据。

预训练阶段，Kwaipilot团队使用了大约1000万个示例的语料，其中约34.8%的数据为思考数据，约65.2%的数据为非思考数据。这些数据涵盖了科学、代码、数学、工具调用和通用知识等广泛领域，给模型的能力泛化提供基础。

Kwaipilot团队选择通过模型蒸馏的方式完成模型的初始化冷启动------先让一个大型教师模型在输入数据上输出详细的概率分布，再让较小的学生模型在相同输入下产生预测，通过最小化两者之间的差异，使学生模型学习教师模型的预测模式和知识。

不过，KAT-V1采用了独特的异构蒸馏框架，能够更高效地将教师模型的知识传递给学生模型。该框架由通用Logits蒸馏损失（ULD Loss）和多Token预测（MTP）两大模块组成。

其中，MTP模块使学生模型在一次计算中不仅能预测下一个Token，还能同时预测多个后续Token，从而增强模型对"未来收益"的理解。通俗地说，多Token预测让模型学会做出有利于整个序列长远表现的决策，提高了预测的准确性和学习效率。

在多种对齐方式中（如对齐embedding层或语言模型输出等），Kwaipilot团队发现，对齐Token级别的logits效果最好，这就是通用Logits蒸馏损失（ULD Loss）的核心。

教师模型在生成每个Token（如Token A、B、C）时，会输出对应的logits（即模型预测该Token的原始分数），并将其作为监督信号传递给学生模型的MTP模块。ULD Loss则弥合了正常序列预测与并行预测之间的差异，使得即便模型架构不同，也能灵活实现知识迁移。

整体上，这个设计大大提高了知识迁移的效率，让小模型在冷启动时用较少算力就能快速获得较好的性能。Kwaipilot团队透露，他们以传统方法1/30的成本，完成了模型的冷启初始化。

三、优化GRPO算法实现高效RL，激发模型智能选择思考模式

在预训练阶段，模型已经通过思考、非思考数据的注入，学会了在得到外部指令时，被动切换思考模式。而后训练阶段的目标，则是让KAT-V1学会根据输入查询，自动确定适合的思考模式。

SFT for AutoThink

Kwaipilot团队通过结构化的数据合成流程，让模型学会在Think-on（思考）和Think-off（非思考）两种模式之间做出选择。每个查询先由多个模型投票决定适合的推理模式，再分别用DeepSeek-R1或DeepSeek-V3生成回答，确保内容多样且契合任务。

同时，为提升模型对思考模式的理解，每条样本还由DeepSeek-V3生成解释说明合理性，作为额外训练信号，并将约1%的数据随机分配模式防止过拟合。所有数据都使用统一模板，包含对是否需要推理的判断、（如需推理时的）推理过程及最终回答，使模型既能判断是否推理，又能清晰区分分析与作答。

这些数据让模型学会了如何判断用户意图以及问题难度，并决定如何思考后再进行回答。经过冷启 SFT，KAT-V1可以在需要思考的困难榜单上达到DeepSeek-R1-0528 95%以上的性能；在较为简单的榜单上，由于模型自我决定部分问题进行深度思考，而出现10%-30%的性能涨幅。

RL via Step-SRPO

仅通过精细化数据 SFT 所获得的判断能力受到数据制约，其智能程度和灵活性仍然受限，泛化性也还不够强。

为了让模型的思考判断更加智能，Kwaipilot团队需要进行强化学习。最初，他们采用传统强化学习算法GRPO进行端到端强化学习，希望让模型更智能地判断是否需要思考。但由于GRPO缺乏清晰的过程监督，训练中出现了不稳定现象，比如模型表面上判断应开启思考模式，最终却不进行推理，或者在简单的代码和数学题上也频繁启动推理。

最终，Kwaipilot团队提出了一种分布式奖励的强化学习算法：Step-SRPO。在Step-SRPO框架中，模型先进行"推理必要性评估"，判断每个问题是否需要深入思考，以避免对简单问题浪费计算资源。

随后，通过双重奖励机制引导学习：判断奖励（Judge Reward）根据模型是否正确选择推理模式打分，鼓励准确判断推理需求；答案奖励（Answer Reward）依据最终回答的正确性和质量进行评分，并结合判断奖励进行调整，确保回答质量和推理选择相一致。

数据显示，由于强化学习的奖励策略，模型选择思考模式的比例不断降低。

模型在训练阶段，由于强化学习的奖励策略，模型开启think-on的比例不断降低

这种趋势在测试集上的表现更为明显，模型在多个测试集的平均token数下降了20%-30%，其中复杂推理榜单(例如AIME 2025/2024、LCB、GPQA) 变化趋势最小，但是相对简易榜单的比例下降趋势更为明显。

模型在测试集合，模型开启think-on的比例不断降低

Step-SRPO让模型在训练中逐步学会既能保持高准确性，也能根据问题难度灵活调整推理深度，最终实现在模型性能上涨的前提下，还能进一步降低token的使用，提升了模型输出token的思考密度以及对是否应该开启思考模式判断的智能程度。

强化学习训练后，KAT-V1 40B成功学会了自动在某些简单问题上切换到非思考模式，模型性能在保持和DeepSeek-R1-0528接近的水位下，平均token消耗降低。

约为 DeepSeek R1-0528 85%左右的token消耗量

四、复杂推理能力对标R1-0528

经过专项训练后的模型，对于困难的问题会首先进行判断难易程度，然后进行思考并给出解题过程及最终步骤。

小球在六边形内运动

这里以前段时间较火的小球问题举例，让大模型写一个程序，模拟小球的运动。

"write a Python program that shows a ball bouncing inside a spinning hexagon. The ball should be affected by gravity and friction, and it must bounce off the rotating walls realistically" （编写一个Python程序，展示一个在旋转六边形内弹跳的小球。小球需受重力和摩擦力影响，并能够根据旋转的六边形墙壁实现真实碰撞反弹效果。）

KAT-V1-40B 编写的小球运动代码表现自然，且比较真实的反映了物理世界中重力和摩擦力的影响，满足了题目的要求。

对比O3-mini与DeepSeek-R1 生成的代码看起来也更流畅自然。

为了测试模型的多轮对话能力，我们给题目的难度再升升级，让模型能够模拟小球尾迹，并且当用户按下空格时，小球数量增加，并且希望模型可以正确处理小球之间的碰撞，再经过新一轮的对话后，模型写出了以下代码：

AutoThink 实际使用体验

在代码生成方向，由于编程相关问题往往更加复杂，而这种 "pre-think" 的推理形态也展现出更强大的问题理解能力以及规划能力。

在复杂的SQL优化例子中，KAT-V1-40B自动启动其思考模式。在15秒的思考时间内，提供了结构化的多步骤分析，而另一款推理模型则需要53秒，KAT-V1-40B还给出了问题的分析和路径的规划，在深度、架构洞察力和可扩展性建议方面要优于另一款推理模型。

在处理不需要思考的问题时，最先进的推理模型仍然会进行不必要的逐步分析，生成近400个token的冗长回复，并产生额外的17秒延迟。

相比之下，KAT-V1-40B 正确地识别了任务的简单性，迅速激活了非思考模式，并生成了高质量的回复，这种特性进一步巩固了其在实际部署中的实用价值：

当前的思考模型相比非思考模型，往往在复杂场景不能很好的识别用户意图。而在这种场景下，由于这种"pre-think"的过程存在，往往能结合用户意图和问题进行更详细的方案设计与规划。

除了自主思考控制之外，KAT模型还支持用户通过简单的意图指令（例如显式的思考或非思考偏好）来引导模型是否开启思考模式：

KAT-V1的思考形态也适配了智能体模式，模型可以在多智能体的场景中，准确地在思考与非思考之间切换。例如，文件检查期间禁用推理，并在需要诊断或代码生成时主动启用深度推理和基于工具的探索。、

以下是一个模型和Kwaipilot产品中智能体代码生成功能协同作用的例子：

五、结语

Kwaipilot团队在过去几个月里已开源多款覆盖推理、编程、Embedding等领域的模型。在后续的工作中，我们将详细介绍完整的AutoThink训练框架，并计划开源相关训练数据、强化学习代码库，以及1.5B、7B和13B等不同规模的模型。此外，AutoThink框架未来有望扩展到多模态和交互式智能体应用，进一步提升模型的可控性与通用性。KAT-V1的200B参数的MoE（Mixture-of-Experts）变体也有望在训练完成后向社区开放。

感谢大家关注Kwaipilot近期的工作，道阻且长，行则将至，我们会在大模型的探索之路上砥砺前行。

【END】