LLM--VIT简介

文章目录

论文精度视频VIT论文精度,这里做简要概述

前言--CNN缺点

CNN神经网络是ai算法中最重要,最经典的算法之一,在vit出现之前,Resnet模型一直都是最好的视觉模型;当然CNN也不是没有缺点,其中有两个典型的缺点:局部性和平移不变性。

  1. 局部性 :这个即使有点也是缺点,CNN认为最重要的信息是局部的,像素点距离越近重要程度越高这一点也是优点 ,因为以一个物体的图像来说,像素点越近,重要程度肯定越高;但是同时也是缺点,如果需要找距离较长的关系,那么就需要堆叠CNN网络,使得感受野增大。
  2. 平移不变性:CNN认为一个物体,无论在一张图片什么位置,他的特征是一样的。

论文内容概述

VIT效果 :在大规模数据进行预训练 ,再微调 能和最好的CNN效果一样(ResNet)。

Transformer:

  • 参数量大,1000亿+参数 ,数据量也大。
  • 运用到视觉难点
    • 自注意机制时间复杂度高O(n^2)
    • transformer序列长度不大,如:512

视觉运用Transformer 难点举例*,以一张单色图片,参数为:1* 224 * 224 为例。

VIT解决方法

VIT模型结构解析

相关推荐
guslegend1 天前
第10节:后端业务基础设施
大模型
梦想不只是梦与想1 天前
构建智能问答或RAG系统:三个关键组件
llm·智能问答·rag·reranker·embedding model
小马过河R1 天前
RAG检索优化策略:系统性四层框架解析
人工智能·python·算法·ai·llm·rag·问答
数据智能老司机1 天前
大语言模型:那些硬核难题——面向安全性的 LLM 评估
llm
汤姆yu1 天前
视觉编程革命:智谱GLM-5V-Turbo引领Design2Code新范式
ai·大模型·视觉革命
数据智能老司机1 天前
大语言模型:那些硬核难题——第一性原理:在开始用 LLM 构建之前,我们需要考虑什么
llm
belldeep1 天前
CSR座席模块 如何结合AI 大模型应用?
人工智能·ai·大模型·csr坐席
swipe1 天前
Agentic RAG:用 LangGraph 构建会路由、会纠错、会收敛的闭环 RAG
后端·langchain·llm
小何code1 天前
人工智能【第30篇】AI学习路径总结与职业规划指南
人工智能·大模型·职业规划·ai学习路径
冬奇Lab1 天前
RAG 系列(十八):Conversational RAG——多轮对话中的代词陷阱
人工智能·llm