文明的引导者 · 卷二 · 机器会思考吗?

1947 年的一个午后,伦敦的空气依旧带着战后尘埃。英国国家物理实验室的讲堂里,艾伦·图灵正向一群科学家与数学家演讲。人们神情专注,他们关心如何让新出现的电子计算机更快地完成运算任务。然而,图灵却突然提出了一个问题:"机器会思考吗?"(Can machines think?)

机器会思考吗?这是图灵在上世纪 40 年代提出的经典问题。如今,随着人工智能的迅猛发展,大语言模型(LLMs)已经展现出前所未有的能力:它们能写文章、解数学题、生成代码,甚至在若干任务上接近或超越人类平均水平。这让我们不得不再次思考一个核心问题:既然这些模型已经呈现出"涌现智能"的迹象,甚至可能具备超越人类的潜力,那么,它们是否真的会思考?如果答案是肯定的,我们又为何仍在不断改进训练方法,试图让模型在推理时像人类那样思考?

大模型的智力已经内化

在人工智能发展的早期,系统往往依赖显式的规则库。例如,专家系统需要工程师编写成千上万条逻辑规则,才能在特定领域内发挥作用。这种智能是"外在"的:知识以明确形式存储,推理过程依赖人工设定。

与之不同,大语言模型通过在海量语料上的训练,把语言模式、逻辑结构乃至常识知识以内化的方式编码进神经网络参数中。这些知识不再以显式规则存在,而是被潜在表示吸收。换句话说,大模型无需人类逐条输入规则,而是依靠内部结构生成答案。它不仅能根据提示生成连贯的故事,还能在解释复杂现象时运用类比与叙事。这说明,模型并非只是"拼接语言",而是在以潜在的知识结构组织信息。

大语言模型的核心架构------Transformer,在规模足够大时,会呈现出所谓的涌现性(emergence)。这意味着模型在没有显式编程的前提下,可能展现出类人推理、逻辑分析和知识迁移的行为特征。

这种能力并非外部附加,而是嵌入在模型的权重和注意力机制之中。研究显示,模型在训练过程中能够表现出跨任务迁移的迹象,即在不同领域的任务中组合并应用知识。例如,GPT-3 已展现出在陌生任务中通过少量示例进行学习(few-shot learning)的能力;在多步算术推理和逻辑题上,它的表现也明显优于早期神经网络。这说明,大模型在训练过程中已经积累了跨领域推理的潜力。

为什么还需要训练大模型"思考"?

然而,内化的潜力并不等于外显的推理轨迹。既然大语言模型已经具备推理能力,为什么研究者还要设计所谓的"Thinking 模式"、引入 think 标签,甚至构建 Chain-of-Thought 或 Tree-of-Thought 这样的框架?

原因在于,大模型并不会自动把推理潜力显性化。它的训练目标是"预测下一个词"。在大多数人类对话数据里,答案往往直接给出,很少有人在日常交流中逐步展开推理。因此,模型在被微调成 Instruct 模式后,更习惯于"快速响应",而不是"深度推演"。

这点可以用人类大脑来类比:当别人对你说"你好"时,你不会先在脑中演算逻辑,而是直接回一句"你好"。这种"省力倾向"在人类和模型身上都存在------如果可以直接给出答案,就不会额外展开推理。

问题在于,许多需要逻辑分析、数学推理或复杂规划的任务,模型往往因为缺乏显式的"展开思考"过程而出错。

因此,研究者开始尝试通过显式手段来诱导模型思考。例如,Chain-of-Thought 提示让模型先生成中间推演再给出结论,已被证明能在数学和逻辑任务中显著提升表现。进一步,若在训练样例中加入 think 标签,模型能区分"思考过程"和"最终答案",推理路径也因此更稳定。而在更复杂的框架中,如 Tree-of-Thought,模型会生成多条解题思路并进行筛选与比较,最终选出更合理的答案。

这些方法的核心,并不是"创造"新的智能,而是让已有的推理机制显性化。换句话说,它们把模型内部潜藏的推理能力转化为可见的"思维链条"。因此,所谓"思考模式"更多是一种外部引导手段。无论是提示工程、显式标签还是搜索式框架,其目的都在于发挥已有潜力,而不是凭空增加新技能。

思考,快与慢

人类大脑重量约占体重的 2%,却消耗约 20% 的能量。在进化过程中,这种高能耗器官必须在有限能量环境下平衡效率与精度。心理学家丹尼尔·卡尼曼在《思考,快与慢》中提出,人类认知活动可大体分为两类模式:

系统 1(快速直觉反应):依赖较低的代谢消耗,常基于经验和启发式规则。它能在危险情境下迅速反应(例如见到火焰就躲避),节约时间和能量,即便偶尔出错也比延迟更具生存价值。

系统 2(前额叶逻辑推理):涉及前额叶皮层(PFC)、前扣带皮层(ACC)等区域,运作时葡萄糖和氧气消耗明显升高。这一模式在复杂、陌生或冲突情境中必不可少,但长期维持会导致"脑力疲劳"。

从进化角度看,大脑形成"双系统"并非为了追求完美,而是为了在有限能量下保证生存:日常任务交给低耗能的直觉系统,高风险或复杂问题则动用昂贵的推理系统。

神经科学研究表明,这种区分有明确的生物学基础。系统 1 常依赖杏仁核、纹状体等区域,负责情绪与习惯性反应;系统 2 依赖背外侧前额叶皮层(DLPFC)、ACC 以及海马体,负责逻辑推理、冲突监控和记忆调用。这解释了为什么"深度思考"往往伴随明显的疲劳感。

类比之下,大模型的 Instruct 模式近似系统 1 的快速反应,而 Thinking 模式则对应系统 2 的深度推理。不同之处在于:人脑依靠元认知能力主动切换,而大模型通常需要提示工程或外部控制器来激活。

在人类大脑中,多巴胺系统在行为带来正反馈时释放奖励信号,强化相关神经连接。工程上常将这一机制类比为人类反馈强化学习(RLHF),即通过人类偏好打分为模型提供"奖励信号",引导其偏向更符合期望的推理链条。这样,昂贵的"深思"只有在带来价值时才会被强化,否则就回归低成本模式。

节能与调度

在人脑中,直觉与推理的切换并非随机,而是由一套协调机制控制:

首先是冲突监测(ACC)。当直觉反应与目标或外部信息不符时,ACC 发出"异常信号"。例如把 10 ÷ 2 + 1 直觉误算为 5(错误示例),ACC 会检测到冲突。

随后是前额叶皮层(PFC)介入。ACC 发出信号后,PFC 调动工作记忆与逻辑资源,切换到更耗能的推理模式。

最后是奖励与动机系统的调节。多巴胺通路评估是否值得维持高能耗状态。如果解决复杂任务能带来收益,PFC 激活就会持续。

这套机制解释了大脑为何多数情况下依赖直觉,而在复杂任务中才调用推理。

人工智能也面临类似挑战。回答简单问题若动用全部推理,会浪费算力;面对复杂任务若只依赖表层模式,则易出错。因此,部分新一代大模型引入了路由器(router)机制:在输入到来时自动评估任务难度,并在"快速直觉通道"与"深度推理通道"之间选择。

一些闭源模型提供 reasoning.effort(如 OpenAI 系列)、budget_tokens(如 Anthropic 系列)等思考预算参数,用以调控推理深度;部分开源模型则利用轻量分类器或 gating 机制判定是否进入"思考模式"。一旦进入思考模式,模型会生成中间步骤,并通过剪枝与筛选避免推理无限延展;在数值实现上,有的系统(如DeepSeek V3.1)采用低精度(如 FP8)来降低计算成本。

可以说,路由器机制在概念上对应人脑的 ACC---PFC---多巴胺系统:通过冲突检测、任务调度与能量评估,在快慢思维之间动态切换。这一设计既保证了响应速度,也在需要时提升了推理可靠性,从而避免无谓的"过度思考"。

结语

当我们再次回望图灵的问题------"机器会思考吗?"------或许更恰当的回答是:机器确实展现出某种形式的思考,但它与人类思维并不相同。而在技术不断演化的过程中,这个问题本身,正成为推动我们探索智能边界的动力。

参考文献

  1. Wei, J., et al. (2022). Chain-of-Thought Prompting Elicits Reasoning in Large Language Models.
  2. Kojima, T., et al. (2022). Large Language Models are Zero-Shot Reasoners.
  3. Wang, X., et al. (2023). Self-Consistency Improves Chain-of-Thought Reasoning in Large Language Models.
  4. Shinn, N., et al. (2023). Tree of Thoughts: Deliberate Problem Solving with Large Language Models.
  5. Yao, Y., et al. (2023). ReAct: Synergizing Reasoning and Acting in Language Models.
  6. Shinn, N., et al. (2023). Reflexion: Language Agents with Verbal Reinforcement Learning.
  7. Shazeer, N., et al. (2017). Outrageously Large Neural Networks: The Sparsely-Gated Mixture-of-Experts Layer.
  8. Fedus, W., Dean, J., & Shazeer, N. (2022). Switch Transformers: Scaling to Trillion Parameter Models with Simple and Efficient Sparsity.JMLR.
  9. Christiano, P., et al. (2017). Deep Reinforcement Learning from Human Preferences. NeurIPS.
  10. Bai, Y., et al. (2023). Constitutional AI: Harmlessness from AI Feedback.
  11. 卡尼曼, D. (2012). 思考,快与慢. 中信出版社.
  12. Botvinick, M. M., Cohen, J. D., & Carter, C. S. (2004). Conflict monitoring and anterior cingulate cortex: an update. Trends in Cognitive Sciences.
  13. Shenhav, A., Botvinick, M. M., & Cohen, J. D. (2013). The expected value of control: An integrative theory of anterior cingulate cortex function. Neuron.
  14. Holroyd, C. B., & Yeung, N. (2012). Motivation of extended behaviors by anterior cingulate cortex. Trends in Cognitive Sciences.
  15. Arnsten, A. F. (2009). Stress signalling pathways that impair prefrontal cortex structure and function. Nature Reviews Neuroscience.
  16. Miller, E. K., & Cummings, J. L. (2007). The Human Frontal Lobes: Functions and Disorders. Guilford Press.
  17. 吉尔伦尔, G., & 托德, P. M. (2002). 简捷启发式. 华东师范大学出版社.
  18. 拉塞尔, S., 诺维格, P. (2013). 人工智能:一种现代的方法 (第3版). 机械工业出版社.
  19. Legg, S., & Hutter, M. (2007). A Collection of Definitions of Intelligence.
  20. Chollet, F. (2019). On the Measure of Intelligence.
  21. 米切尔, M. (2021). AI3.0. 四川科学技术出版社.
  22. 马库斯, G., 戴维斯, E. (2020). 如何创造可信的AI. 浙江教育出版社.
  23. Bender, E. M., Gebru, T., McMillan-Major, A., & Shmitchell, S. (2021). On the Dangers of Stochastic Parrots: Can Language Models Be Too Big?. Proceedings of FAccT.
  24. Ji, Z., et al. (2023). Survey of Hallucination in Natural Language Generation. ACM Computing Surveys.