LLM论文笔记 19: On Limitations of the Transformer Architecture

  • Arxiv日期:2024.2.26
  • 机构:Columbia University / Google

关键词

  • Transformer架构
  • 幻觉问题
  • 数学谜题

核心结论

  1. Transformer 无法可靠地计算函数组合问题
  1. Transformer 的计算能力受限于信息瓶颈
  1. CoT 可以减少 Transformer 计算错误的概率,但无法根本性突破其计算能力的上限

  2. **CoT 需要生成指数级增长的 token。**CoT 只能通过增加大量的 token 来弥补 Transformer 的计算瓶颈,而不能从根本上提升 Transformer 的计算能力。

主要方法

核心目标是分析 Transformer 在计算能力上的根本性限制 ,特别是在 函数组合(Function Composition)、数学推理、逻辑推理 等任务上的表现。

通过 通信复杂度**(Communication Complexity)** 和 计算复杂度(Computational Complexity) 的分析

参考:https://zhuanlan.zhihu.com/p/682254725

注:本系列不包括基础的知识点讲解,为笔记/大纲性质而非教程,用于论文知识点和思想和快速记忆和回顾,更多细节建议阅读论文原文

相关推荐
A_QXBlms17 小时前
企微工具对比:用API打通AI私域客服自动回复(实测3款工具)
人工智能·企业微信
锦瑟弦音17 小时前
金蝶二开笔记&&setCancelMessage
笔记
wenzhangli717 小时前
从零开始的 SPAC 编程构建 BPM 设计器实战
人工智能
踩着两条虫17 小时前
效率翻倍!AI智能体深度解析:自然语言 → DSL → Vue组件
前端·人工智能·低代码
_李小白17 小时前
【OSG学习笔记】Day 45: osg::Camera::DrawCallback (抓取图片)
笔记·学习
小江的记录本17 小时前
【Transformer架构】Transformer架构核心知识体系(包括自注意力机制、多头注意力、Encoder-Decoder结构)
java·人工智能·后端·python·深度学习·架构·transformer
AI先驱体验官17 小时前
债小白分析:债务优化服务的新变量、AI能否带来行业升级
大数据·人工智能·深度学习·重构·aigc
青苔猿猿17 小时前
OpenWebUI(20)源码学习-版本升级
人工智能·学习·ai·openwebui
黑金IT17 小时前
当博弈论遇见AI开发,研发即博弈,对抗即进化
人工智能·自动化
ai生成式引擎优化技术17 小时前
服装店AI生成式引擎优化(GEO)方案
人工智能