DeepSeek-R1的“思考”艺术，你真的了解吗？

大家好~，这里是AI粉嫩特攻队！今天咱们来聊聊一个有趣的话题------DeepSeek-R1到底什么时候会"思考"，什么时候又会选择"偷懒"？

最近有朋友问我："听说现在的AI都会'推理'了，那它们是不是每次回答问题都要走一遍复杂的思维链（CoT）？"嗯......这个问题听起来简单，背后其实藏着R1设计的智慧和取舍。

举个例子，当你问R1"你好"时，它显然不会给你甩出一串哲学式的推理过程吧？但如果问题是"如何用量子力学解释薛定谔的猫"，那可能就得好好捋一捋思路了。

那么，这种智能背后的逻辑是什么？为什么有时候它像个严谨的科学家，有时候却像个随性的聊天搭子？

其实，R1的训练数据分为两类，一类是推理数据（包含问题、思考过程、回答的数据），另一类是非推理数据（只有问题和回答）。来看看R1论文的相关节选：

红线标记的内容对应下面这3点：

在这个阶段（与最初冷启动时主要聚焦推理不同），引入了其他领域的数据，这能增强模型在写作、角色扮演等通用任务方面的能力。
对于非推理数据，像写作、事实问答、自我认知以及翻译这些任务，采用了DeepSeek-V3的流程，并且利用了DeepSeek-V3的一部分监督微调（SFT）数据集。
不过呢，对于像"你好"这样比较简单的查询，就不会给出思维链作为回应啦。

动动手试试

先问问他是谁，果然这个问题不用动脑子！再问一个数学问题，emmm，脑子开始转了~

简单来说，R1这类模型不是机械地生成推理过程，而是根据任务需求灵活调整输出形式------该深则深，该浅则浅。

到这里，关于DeepSeek-R1"思考"艺术的问题我们已经了解。AI发展就像一个充满惊喜的宝藏，知识的探索也是永无止境的。感谢大家陪我们一起探究这个有趣的AI话题。如果你也热爱AI，想了解更多，欢迎关注[AI粉嫩特攻队]，咱们一起在科技的海洋里畅游。

今日AI术语小科普

CoT，全称为"Chain of Thought"（思维链），是一种通过逐步分解和展示推理过程来解决问题的方法，在人工智能领域常被用于提升模型的逻辑推理能力。

感谢阅读，你的点赞和转发是我持续创作的动力！O(∩_∩)O~