LLM--VIT简介

文章目录

论文精度视频VIT论文精度,这里做简要概述

前言--CNN缺点

CNN神经网络是ai算法中最重要,最经典的算法之一,在vit出现之前,Resnet模型一直都是最好的视觉模型;当然CNN也不是没有缺点,其中有两个典型的缺点:局部性和平移不变性。

  1. 局部性 :这个即使有点也是缺点,CNN认为最重要的信息是局部的,像素点距离越近重要程度越高这一点也是优点 ,因为以一个物体的图像来说,像素点越近,重要程度肯定越高;但是同时也是缺点,如果需要找距离较长的关系,那么就需要堆叠CNN网络,使得感受野增大。
  2. 平移不变性:CNN认为一个物体,无论在一张图片什么位置,他的特征是一样的。

论文内容概述

VIT效果 :在大规模数据进行预训练 ,再微调 能和最好的CNN效果一样(ResNet)。

Transformer:

  • 参数量大,1000亿+参数 ,数据量也大。
  • 运用到视觉难点
    • 自注意机制时间复杂度高O(n^2)
    • transformer序列长度不大,如:512

视觉运用Transformer 难点举例*,以一张单色图片,参数为:1* 224 * 224 为例。

VIT解决方法

VIT模型结构解析

相关推荐
Goodbye17 小时前
基于 Prompt 工程的 NLP 系统开发实践 —— 以 DeepSeek 大模型为例
nlp
jimi112617 小时前
从零理解 Transformer
人工智能·深度学习·nlp
冬奇Lab17 小时前
Agent 系列(15):Agent 记忆系统进阶——短期、长期、压缩,三层记忆架构
人工智能·llm·agent
鲲鹏AI探索局17 小时前
大模型问答里的品牌信息一致性检查:先做定位,再做内容
人工智能·大模型·aigc
Esaka_Forever18 小时前
Agent = LLM + Tools + Knowledge + Memory
llm
jarreyer18 小时前
【AI工具】bilinote
大模型
星马梦缘19 小时前
MCP 模型上下文协议、Agent Skills 智能体技能、Harness操作系统 课程内容
人工智能·大模型·llm·agent·智能体·mcp·skills
lhxcc_fly1 天前
6.3.1RAG--存储(嵌入向量)
langchain·llm·embedding
心之伊始1 天前
Java 后端接入大模型:从 Token、并发到推理成本的完整估算方法
java·spring boot·性能优化·大模型·llm
装不满的克莱因瓶1 天前
学习 Agent 基础概念及不同 Agent 的适用场景
人工智能·ai·大模型·llm·智能体