AI 也需要“停下来思考”？Anthropic 的新方法让 Claude 更聪明！

本文首发于【算法工程笔记】公众号

最近，Anthropic 发布了一篇博客------The "think" tool: Enabling Claude to stop and think in complex tool use situations，介绍了一种全新的方法，让大模型能够真正"停下来思考"。

这项工作名为 "think" 工具 ，它可以帮助 Claude 在复杂任务中提升决策能力 ，尤其是在需要 多步骤推理、遵循策略、以及调用外部工具 的场景。

这意味着什么？

在日常使用 AI 的过程中，我们经常会遇到这样的问题：

"think" 工具的核心目标 就是解决这些问题，让 AI 在回答之前，或是在回答过程中，有能力停下来进行思考。

什么是 "think" 工具？它如何提升 AI 的能力？

简单来说，"think" 工具就是一个特殊的函数调用 ，给大模型注入了一些先验知识 ，让 Claude 在生成最终答案之前，可以主动停下来，分析自己是否掌握了足够的信息，或者是否需要调整思路。

Extended Thinking（类似DeepSeek-R1或者OpenAI o1/o3）
- 发生在 AI 开始生成响应之前
- Claude 在采取行动前，会深入思考，迭代自己的计划
- 适用于 不依赖外部信息 、可以 预先规划 的任务
"Think" 工具
- 发生在 AI 开始生成响应之后
- Claude 在回答过程中，可以停下来思考，评估是否需要调整策略或获取额外信息
- 适用于 复杂推理、外部信息处理、多步骤任务

换句话说："extended thinking" 强调事前思考，而 "think" 工具强调在执行过程中的动态思考。

根据实验结果，"think" 工具在以下场景下表现最佳：

✅ 工具输出分析 ：当 Claude 需要仔细处理工具调用的结果，确保其合理性

✅ 策略密集型环境 ：当 AI 需要严格遵循某些规则，例如法律合规性、企业规定等

✅ 顺序决策任务：当任务需要多个步骤，每一步都依赖于之前的操作时（如编程调试、复杂客户服务问题）

❌ 不适用场景：简单的任务、非顺序工具调用。

Anthropic 进行了两项实验，分别测试了 "think" 工具和 "extended thinking" 在 航空客服（airline） 和 零售客服（retail） 场景中的表现。

其中，**航空客服（airline）代表了复杂任务场景，需要一些先验知识；而零售客服（retail）**则代表了一种相对简单任务的场景。

但从 Anthropic 的测试结果来看，有如下结论：

值得注意的是，Claude 3.7 Sonnet 作为目前最先进的大模型之一，在上述两种客服任务中的最高准确率 也只有 58.4% 和 81.2% 。

这说明，即使2025年Q1的大模型比 2022 年的 ChatGPT 取得了长足进步，在 复杂任务 中，它仍然只能 作为强辅助，而不能完全替代人工。

在未来很长一段时间内，AI的发展，或许不会是直接给出最终答案，而是学会 如何更好地思考、分析、优化，成为人类更强大的助手。

感谢阅读，如果这篇文章对你有所帮助，欢迎关注【算法工程笔记】公众号！

同时，你对这种"让 AI 停下来思考"的方法怎么看？欢迎在评论区讨论！