LLM论文笔记 19: On Limitations of the Transformer Architecture

  • Arxiv日期:2024.2.26
  • 机构:Columbia University / Google

关键词

  • Transformer架构
  • 幻觉问题
  • 数学谜题

核心结论

  1. Transformer 无法可靠地计算函数组合问题
  1. Transformer 的计算能力受限于信息瓶颈
  1. CoT 可以减少 Transformer 计算错误的概率,但无法根本性突破其计算能力的上限

  2. **CoT 需要生成指数级增长的 token。**CoT 只能通过增加大量的 token 来弥补 Transformer 的计算瓶颈,而不能从根本上提升 Transformer 的计算能力。

主要方法

核心目标是分析 Transformer 在计算能力上的根本性限制 ,特别是在 函数组合(Function Composition)、数学推理、逻辑推理 等任务上的表现。

通过 通信复杂度**(Communication Complexity)** 和 计算复杂度(Computational Complexity) 的分析

参考:https://zhuanlan.zhihu.com/p/682254725

注:本系列不包括基础的知识点讲解,为笔记/大纲性质而非教程,用于论文知识点和思想和快速记忆和回顾,更多细节建议阅读论文原文

相关推荐
problc12 分钟前
Manus AI 全球首款通用型 Agent,中国制造
大数据·人工智能·制造
xiangzhihong814 分钟前
GitHub神秘组织3小时极速复刻Manus
人工智能·深度学习·机器学习
博云技术社区34 分钟前
DeepSeek×博云AIOS:突破算力桎梏,开启AI普惠新纪元
人工智能·博云·deepseek
ZHOU_WUYI42 分钟前
Process-based Self-Rewarding Language Models 论文简介
人工智能·深度学习
优维科技EasyOps1 小时前
优维眼中的Manus:AI工程化思维重构Agent的运维端启示
运维·人工智能·重构
碣石潇湘无限路1 小时前
【奇点时刻】通义千问开源QwQ-32B技术洞察报告(扫盲帖)
人工智能·开源
西猫雷婶1 小时前
神经网络|(十五)|霍普菲尔德神经网络-Storkey 训练
人工智能·深度学习·神经网络
张申傲1 小时前
DeepSeek + ReAct 实现 Agent
人工智能·ai·chatgpt·aigc·deepseek
凡人的AI工具箱1 小时前
PyTorch深度学习框架60天进阶学习计划第14天:循环神经网络进阶
人工智能·pytorch·python·深度学习·学习·ai编程
西京刀客1 小时前
从零开始训练小型语言模型之minimind
人工智能·语言模型·自然语言处理