vison transformer vit 论文阅读

njsgcs2025-05-11 14:58

An Image is Worth 16x16 Words

20年的论文看成10年的哈斯我了

$2010.11929$ 一张图像胜过 16x16 个单词：用于大规模图像识别的转换器 --- $2010.11929$ An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale

为什么transformer好训练，transformer很好训练吗

为什么 transformer性能不会饱和

Vision Transformer是什么，能干嘛

比如说我三视图有一个圆柱和一个立方体 Vision Transformer能识别出正方体的长宽高信息和圆柱体的直径和高度信息吗

他不是有注意力吗，我能不能让他分开的几个区域算作一个东西

上一篇：基于定制开发开源AI智能名片S2B2C商城小程序的公私域流量融合运营策略研究

下一篇：DeepSeek智能时空数据分析（八）：NL2SQL绘制河流-轨迹缓冲区如何生成

热门推荐

012026年7月AI圈大地震：GPT-5.6被政府限制、Claude入驻Slack、Anthropic自研芯片 02GitHub 镜像站点 03如何新建文件夹？电脑新建文件夹的4种方法 04AI科技热点日报 | 2026年07月01日 05幻兽帕鲁 - 服务器管理员权限与 GM 命令完全指南 06国内可直接用、免费额度/永久免费的大模型API清单（含 SiliconFlow、火山、阿里、智谱、百度、Kimi、DeepSeek、DMXAPI 等）07AI 编程 IDE 全景解析 2026：Agent 全面接管开发链路 082026 年 AI 大模型 & AI 编程工具实战全总结 092026 国产 AI 大模型横评：DeepSeek、通义千问、Kimi、文心一言、星火、豆包谁更能打？102026年AI技术突破与产业落地全景：从GPT-5到多模态智能体的新纪元