LLM论文笔记 19: On Limitations of the Transformer Architecture

  • Arxiv日期:2024.2.26
  • 机构:Columbia University / Google

关键词

  • Transformer架构
  • 幻觉问题
  • 数学谜题

核心结论

  1. Transformer 无法可靠地计算函数组合问题
  1. Transformer 的计算能力受限于信息瓶颈
  1. CoT 可以减少 Transformer 计算错误的概率,但无法根本性突破其计算能力的上限

  2. **CoT 需要生成指数级增长的 token。**CoT 只能通过增加大量的 token 来弥补 Transformer 的计算瓶颈,而不能从根本上提升 Transformer 的计算能力。

主要方法

核心目标是分析 Transformer 在计算能力上的根本性限制 ,特别是在 函数组合(Function Composition)、数学推理、逻辑推理 等任务上的表现。

通过 通信复杂度**(Communication Complexity)** 和 计算复杂度(Computational Complexity) 的分析

参考:https://zhuanlan.zhihu.com/p/682254725

注:本系列不包括基础的知识点讲解,为笔记/大纲性质而非教程,用于论文知识点和思想和快速记忆和回顾,更多细节建议阅读论文原文

相关推荐
不摸鱼6 分钟前
创作平台模式:为什么Shopify模式比Amazon更高明?| 不摸鱼的独立开发者日报(第71期)
人工智能·开源·资讯
黎燃24 分钟前
基于情感识别的在线教育互动优化:技术实现与未来展望
人工智能
shengyicanmou39 分钟前
2025年物联网新趋势:格行随身WiFi的模块化架构与低延迟优化
大数据·人工智能
无望__wsk42 分钟前
ospf笔记
服务器·网络·笔记
Ai财富密码43 分钟前
AI赋能教育:低代码游戏化学习平台
人工智能·低代码·游戏
玖剹1 小时前
Linux文件系统:从内核到缓冲区的奥秘
linux·c语言·c++·笔记·ubuntu
补三补四1 小时前
Shapley与SHAP
大数据·人工智能·算法·机器学习·数据分析
qq_314009831 小时前
Dify版本升级实操
人工智能·aigc·开源软件
Hao想睡觉1 小时前
CNN卷积神经网络之VggNet和GoogleNet经典网络模型(四)
网络·人工智能·cnn
我不是小upper1 小时前
anaconda、conda、pip、pytorch、torch、tensorflow到底是什么?它们之间有何联系与区别?
人工智能·pytorch·深度学习·conda·tensorflow·pip