LLM--VIT简介

文章目录

论文精度视频VIT论文精度,这里做简要概述

前言--CNN缺点

CNN神经网络是ai算法中最重要,最经典的算法之一,在vit出现之前,Resnet模型一直都是最好的视觉模型;当然CNN也不是没有缺点,其中有两个典型的缺点:局部性和平移不变性。

  1. 局部性 :这个即使有点也是缺点,CNN认为最重要的信息是局部的,像素点距离越近重要程度越高这一点也是优点 ,因为以一个物体的图像来说,像素点越近,重要程度肯定越高;但是同时也是缺点,如果需要找距离较长的关系,那么就需要堆叠CNN网络,使得感受野增大。
  2. 平移不变性:CNN认为一个物体,无论在一张图片什么位置,他的特征是一样的。

论文内容概述

VIT效果 :在大规模数据进行预训练 ,再微调 能和最好的CNN效果一样(ResNet)。

Transformer:

  • 参数量大,1000亿+参数 ,数据量也大。
  • 运用到视觉难点
    • 自注意机制时间复杂度高O(n^2)
    • transformer序列长度不大,如:512

视觉运用Transformer 难点举例*,以一张单色图片,参数为:1* 224 * 224 为例。

VIT解决方法

VIT模型结构解析

相关推荐
guslegend3 小时前
4月6日(RAG系统)
人工智能·大模型·rag
最初的↘那颗心5 小时前
Prompt安全实战:注入攻击防御与越狱防护全攻略
大模型·spring ai·注入攻击·prompt安全·越狱防护
CoderJia程序员甲5 小时前
GitHub 热榜项目 - 日榜(2026-04-06)
人工智能·ai·大模型·github·ai教程
Flying pigs~~6 小时前
多模态RAG实战:从表格到音视频的全链路落地指南
自然语言处理·大模型·agent·多模态·rag·prompt提示词
最初的↘那颗心6 小时前
结构化Prompt与Meta Prompt实战——让AI输出你想要的格式
大模型·prompt·spring ai·结构化输出·meta prompt
最初的↘那颗心6 小时前
Prompt基础功:角色分工与样本策略——System Prompt与Few-Shot实战
大模型·llm·prompt·few-shot·spring ai
最初的↘那颗心7 小时前
Prompt工程化实战:模板管理、版本控制、A/B测试与调试
大模型·prompt·版本控制·spring ai·a/b测试
最初的↘那颗心7 小时前
Prompt高级推理:COT思维链、Self-Consistency与ReAct模式实战
大模型·prompt·react·cot·思维链
绵满18 小时前
"Natural-Language Agent Harnesses" 论文笔记
大模型·多智能体