LLM论文笔记 19: On Limitations of the Transformer Architecture

  • Arxiv日期:2024.2.26
  • 机构:Columbia University / Google

关键词

  • Transformer架构
  • 幻觉问题
  • 数学谜题

核心结论

  1. Transformer 无法可靠地计算函数组合问题
  1. Transformer 的计算能力受限于信息瓶颈
  1. CoT 可以减少 Transformer 计算错误的概率,但无法根本性突破其计算能力的上限

  2. **CoT 需要生成指数级增长的 token。**CoT 只能通过增加大量的 token 来弥补 Transformer 的计算瓶颈,而不能从根本上提升 Transformer 的计算能力。

主要方法

核心目标是分析 Transformer 在计算能力上的根本性限制 ,特别是在 函数组合(Function Composition)、数学推理、逻辑推理 等任务上的表现。

通过 通信复杂度**(Communication Complexity)** 和 计算复杂度(Computational Complexity) 的分析

参考:https://zhuanlan.zhihu.com/p/682254725

注:本系列不包括基础的知识点讲解,为笔记/大纲性质而非教程,用于论文知识点和思想和快速记忆和回顾,更多细节建议阅读论文原文

相关推荐
每天一个java小知识37 分钟前
AI Agent
人工智能
('-')42 分钟前
《从根上理解MySQL是怎样运行的》第十章学习笔记
笔记·学习·mysql
hd51cc44 分钟前
MFC学习笔记 对话框
笔记·学习·mfc
猫头虎1 小时前
如何解决 pip install 编译报错 fatal error: hdf5.h: No such file or directory(h5py)问题
人工智能·python·pycharm·开源·beautifulsoup·ai编程·pip
龙赤子1 小时前
人工智能AI的大框架
人工智能
比奥利奥还傲.1 小时前
本地+AI+大模型自由用!Cherry+Studio打破局域网限制
人工智能
雪碧聊技术1 小时前
深度学习、机器学习、人工智能三者的关系
人工智能·深度学习·机器学习
卡提西亚1 小时前
数据库笔记-4-SQL语言之DCL
数据库·笔记·sql
β添砖java1 小时前
机器学习初级
人工智能·机器学习
陈奕昆1 小时前
n8n实战营Day3:电商订单全流程自动化·需求分析与流程拆解
大数据·开发语言·人工智能·自动化·需求分析·n8n