LLM论文笔记 19: On Limitations of the Transformer Architecture

  • Arxiv日期:2024.2.26
  • 机构:Columbia University / Google

关键词

  • Transformer架构
  • 幻觉问题
  • 数学谜题

核心结论

  1. Transformer 无法可靠地计算函数组合问题
  1. Transformer 的计算能力受限于信息瓶颈
  1. CoT 可以减少 Transformer 计算错误的概率,但无法根本性突破其计算能力的上限

  2. **CoT 需要生成指数级增长的 token。**CoT 只能通过增加大量的 token 来弥补 Transformer 的计算瓶颈,而不能从根本上提升 Transformer 的计算能力。

主要方法

核心目标是分析 Transformer 在计算能力上的根本性限制 ,特别是在 函数组合(Function Composition)、数学推理、逻辑推理 等任务上的表现。

通过 通信复杂度**(Communication Complexity)** 和 计算复杂度(Computational Complexity) 的分析

参考:https://zhuanlan.zhihu.com/p/682254725

注:本系列不包括基础的知识点讲解,为笔记/大纲性质而非教程,用于论文知识点和思想和快速记忆和回顾,更多细节建议阅读论文原文

相关推荐
逆小舟20 分钟前
【C/C++】指针
c语言·c++·笔记·学习
Wild_Pointer.34 分钟前
面向Qt/C++开发工程师的Ai提示词(附Trae示例)
人工智能·ai·大模型
三天哥40 分钟前
演示和解读ChatGPT App SDK,以后Android/iOS App不用开发了?
人工智能·ai·chatgpt·aigc·openai·智能体·appsdk
johnny2331 小时前
Transformer基础之注意力机制
transformer
mit6.8241 小时前
PyTorch & Transformers| Azure
人工智能
程序员陆通1 小时前
OpenAI Dev Day 2025:AI开发新纪元的全面布局
人工智能
新兴ICT项目支撑1 小时前
BERT文本分类超参数优化实战:从13小时到83秒的性能飞跃
人工智能·分类·bert
真智AI1 小时前
小模型大智慧:新一代轻量化语言模型全解析
人工智能·语言模型·自然语言处理
小关会打代码2 小时前
深度学习之YOLO系列YOLOv1
人工智能·深度学习·yolo
大山同学2 小时前
CNN手写数字识别minist
人工智能·神经网络·cnn