LLM--VIT简介

文章目录

论文精度视频VIT论文精度,这里做简要概述

前言--CNN缺点

CNN神经网络是ai算法中最重要,最经典的算法之一,在vit出现之前,Resnet模型一直都是最好的视觉模型;当然CNN也不是没有缺点,其中有两个典型的缺点:局部性和平移不变性。

  1. 局部性 :这个即使有点也是缺点,CNN认为最重要的信息是局部的,像素点距离越近重要程度越高这一点也是优点 ,因为以一个物体的图像来说,像素点越近,重要程度肯定越高;但是同时也是缺点,如果需要找距离较长的关系,那么就需要堆叠CNN网络,使得感受野增大。
  2. 平移不变性:CNN认为一个物体,无论在一张图片什么位置,他的特征是一样的。

论文内容概述

VIT效果 :在大规模数据进行预训练 ,再微调 能和最好的CNN效果一样(ResNet)。

Transformer:

  • 参数量大,1000亿+参数 ,数据量也大。
  • 运用到视觉难点
    • 自注意机制时间复杂度高O(n^2)
    • transformer序列长度不大,如:512

视觉运用Transformer 难点举例*,以一张单色图片,参数为:1* 224 * 224 为例。

VIT解决方法

VIT模型结构解析

相关推荐
用户9901930524514 小时前
Nano-vLLM-MS:基于 nano-vLLM ,支持 MoE 模型和 Speculative Decoding
pytorch·llm
libokaifa14 小时前
Claude Code 的工程化落地:省 Token 篇
llm·agent·ai编程
New_Horizons66614 小时前
Claude Code的安装和使用(Win10)
大模型·claude code
RockHopper202516 小时前
LLM 的“高概率合理性”vs“系统级可执行正确性”
llm·语义驱动·运行语义
GPUStack17 小时前
Day 0 部署:昇腾 910B DeepSeek-V4 部署指南与压测表现
大模型·ascend·模型推理·deepseek·gpustack
庄小焱17 小时前
【AI模型】——RAG格式集成
大模型·rag·ai模型·模型结果格式化
AVA洋18 小时前
初识Coze(扣子)工作流,ai视频自动化制作
人工智能·python·大模型
薛定谔的猫36918 小时前
DeepSeek-V3 模型架构与训练技术深度解析
深度学习·ai·llm·machine learning·moe·deepseek
翔云12345619 小时前
claude-context 本地部署方案
ai·大模型
.柒宇.19 小时前
LangChain入门教程
ai·langchain·llm·agent·rag