LLM--VIT简介

文章目录

论文精度视频VIT论文精度,这里做简要概述

前言--CNN缺点

CNN神经网络是ai算法中最重要,最经典的算法之一,在vit出现之前,Resnet模型一直都是最好的视觉模型;当然CNN也不是没有缺点,其中有两个典型的缺点:局部性和平移不变性。

  1. 局部性 :这个即使有点也是缺点,CNN认为最重要的信息是局部的,像素点距离越近重要程度越高这一点也是优点 ,因为以一个物体的图像来说,像素点越近,重要程度肯定越高;但是同时也是缺点,如果需要找距离较长的关系,那么就需要堆叠CNN网络,使得感受野增大。
  2. 平移不变性:CNN认为一个物体,无论在一张图片什么位置,他的特征是一样的。

论文内容概述

VIT效果 :在大规模数据进行预训练 ,再微调 能和最好的CNN效果一样(ResNet)。

Transformer:

  • 参数量大,1000亿+参数 ,数据量也大。
  • 运用到视觉难点
    • 自注意机制时间复杂度高O(n^2)
    • transformer序列长度不大,如:512

视觉运用Transformer 难点举例*,以一张单色图片,参数为:1* 224 * 224 为例。

VIT解决方法

VIT模型结构解析

相关推荐
JouYY4 小时前
聊一下多 Agent 编排架构的应用实践
架构·llm·agent
aqi001 天前
15天学会AI应用开发(九)利用Chroma持久化向量数据
人工智能·python·大模型·ai编程·ai应用
To_OC2 天前
数据集划分不是随便切:手把手切分大众点评情感数据集
人工智能·llm·agent
想要成为糕糕手2 天前
深入理解AI Agent工具调用:从原理到代码实现
llm·agent
yLDeveloper2 天前
从矩阵乘法到多模态大模型 - LLM 篇
llm·nlp
前端君2 天前
Claude Code 如何配置本地Ollama模型或别的模型(Deepseek等)
llm·agent·claude
Darling噜啦啦2 天前
LLM 数据工程实战:从数据集划分到交叉验证——大模型智能的根基
llm
HjhIron2 天前
工具调用:当LLM学会使用"武器",AI Agent的底层逻辑拆解
llm·agent
Hyyy3 天前
Few-shot、Chain-of-Thought、ReAct模式是什么
llm·ai编程