【译】Anthropic:推理模型的思维链并非总是忠实2025年4月3日原文地址自去年末以来,“推理模型”的概念在人工智能领域备受关注。 这些AI模型,例如Claude 3.7 Sonnet,能够展示其推理过程:除了给出最终答案,你还可以阅读它们得出结论的路径,通常既引人入胜又错综复杂,这就是所谓的“思维链”(Chain-of-Thought, CoT)。 “思维链”不仅帮助推理模型解决更复杂的问题,也为人工智能安全研究人员提供了便利。 因为我们可以检查模型在“思维链”中表达、但在最终输出中未提及的内容,这有助于我们发现诸如欺骗之类的不良行为。 但如果我们想