LLM--VIT简介

羊小猪~~2026-04-07 13:58

文章目录

前言--CNN缺点
论文内容概述
VIT模型结构解析

论文精度视频 ：VIT论文精度，这里做简要概述

前言--CNN缺点

CNN神经网络是ai算法中最重要，最经典的算法之一，在vit出现之前，Resnet模型一直都是最好的视觉模型；当然CNN也不是没有缺点，其中有两个典型的缺点：局部性和平移不变性。

局部性 ：这个即使有点也是缺点，CNN认为最重要的信息是局部的，像素点距离越近重要程度越高 。这一点也是优点 ，因为以一个物体的图像来说，像素点越近，重要程度肯定越高；但是同时也是缺点，如果需要找距离较长的关系，那么就需要堆叠CNN网络，使得感受野增大。
平移不变性：CNN认为一个物体，无论在一张图片什么位置，他的特征是一样的。

论文内容概述

VIT效果 ：在大规模数据进行预训练 ，再微调能和最好的CNN效果一样(ResNet)。

Transformer：

参数量大，1000亿+参数，数据量也大。
运用到视觉难点 ：
- 自注意机制时间复杂度高O(n^2)
- transformer序列长度不大，如：512

视觉运用Transformer 难点举例*，以一张单色图片，参数为：1* 224 * 224 为例。

VIT解决方法

VIT模型结构解析

上一篇：Flutter错误处理机制

下一篇：🤖 Claude Code 高级完全指南（七）：Sub-Agents 与团队协作

热门推荐

012026年7月AI圈大地震：GPT-5.6被政府限制、Claude入驻Slack、Anthropic自研芯片 02GitHub 镜像站点 03AI科技热点日报 | 2026年07月01日 04幻兽帕鲁 - 服务器管理员权限与 GM 命令完全指南 05AI 编程 IDE 全景解析 2026：Agent 全面接管开发链路 06如何新建文件夹？电脑新建文件夹的4种方法 072026年AI技术突破与产业落地全景：从GPT-5到多模态智能体的新纪元 08国内可直接用、免费额度/永久免费的大模型API清单（含 SiliconFlow、火山、阿里、智谱、百度、Kimi、DeepSeek、DMXAPI 等）092026 国产 AI 大模型横评：DeepSeek、通义千问、Kimi、文心一言、星火、豆包谁更能打？10几个好用的ip纯净度检测网站