LLM论文笔记 19: On Limitations of the Transformer Architecture

Zhouqi_Hua2025-03-08 20:11

Arxiv日期：2024.2.26

机构：Columbia University / Google

CoT 可以减少 Transformer 计算错误的概率，但无法根本性突破其计算能力的上限
**CoT 需要生成指数级增长的 token。**CoT 只能通过增加大量的 token 来弥补 Transformer 的计算瓶颈，而不能从根本上提升 Transformer 的计算能力。

核心目标是分析 Transformer 在计算能力上的根本性限制 ，特别是在 函数组合（Function Composition）、数学推理、逻辑推理 等任务上的表现。

通过 通信复杂度**（Communication Complexity）** 和 计算复杂度（Computational Complexity） 的分析

注：本系列不包括基础的知识点讲解，为笔记/大纲性质而非教程，用于论文知识点和思想和快速记忆和回顾，更多细节建议阅读论文原文