LLM论文笔记 19: On Limitations of the Transformer Architecture

  • Arxiv日期:2024.2.26
  • 机构:Columbia University / Google

关键词

  • Transformer架构
  • 幻觉问题
  • 数学谜题

核心结论

  1. Transformer 无法可靠地计算函数组合问题
  1. Transformer 的计算能力受限于信息瓶颈
  1. CoT 可以减少 Transformer 计算错误的概率,但无法根本性突破其计算能力的上限

  2. **CoT 需要生成指数级增长的 token。**CoT 只能通过增加大量的 token 来弥补 Transformer 的计算瓶颈,而不能从根本上提升 Transformer 的计算能力。

主要方法

核心目标是分析 Transformer 在计算能力上的根本性限制 ,特别是在 函数组合(Function Composition)、数学推理、逻辑推理 等任务上的表现。

通过 通信复杂度**(Communication Complexity)** 和 计算复杂度(Computational Complexity) 的分析

参考:https://zhuanlan.zhihu.com/p/682254725

注:本系列不包括基础的知识点讲解,为笔记/大纲性质而非教程,用于论文知识点和思想和快速记忆和回顾,更多细节建议阅读论文原文

相关推荐
aqi009 分钟前
15天学会AI应用开发(七)有了大模型为什么还要引入RAG
人工智能·python·大模型·ai编程·ai应用
用户5191495848451 小时前
libcurl Headers API 释放后重利用漏洞:跨请求复用头句柄导致堆内存安全风险
人工智能·aigc
踩蚂蚁1 小时前
自定义语音唤醒词:从训练到部署的完整链路实践
人工智能
用户5191495848451 小时前
CVE-2025-1094 PostgreSQL SQL注入与WebSocket劫持远程代码执行利用工具
人工智能·aigc
IT_陈寒2 小时前
SpringBoot自动配置这个坑,我踩进去又爬出来了
前端·人工智能·后端
冬奇Lab14 小时前
Agent 系列(23):Web Agent——让 Agent 真正浏览网页
人工智能·llm·agent
冬奇Lab14 小时前
每日一个开源项目(第135篇):codebase-memory-mcp - 给 AI Agent 一张代码库的知识图谱
人工智能·开源·llm
IT_陈寒16 小时前
JavaScript的闭包把我坑惨了,说好的内存会自动回收呢?
前端·人工智能·后端