《昇思25天学习打卡营第6天|onereal》

Vision Transformer(ViT)简介

近些年,随着基于自注意(Self-Attention)结构的模型的发展,特别是Transformer模型的提出,极大地促进了自然语言处理模型的发展。由于Transformers的计算效率和可扩展性,它已经能够训练具有超过100B参数的空前规模的模型。

ViT则是自然语言处理和计算机视觉两个领域的融合结晶。在不依赖卷积操作的情况下,依然可以在图像分类任务上达到很好的效果。

模型结构

ViT模型的主体结构是基于Transformer模型的Encoder部分(部分结构顺序有调整,如:Normalization的位置与标准Transformer不同),

以上是今天第6天的学习内容,依然是逐行运行代码,最后生成打卡印迹,不明白功能。先这样跟着走吧。

相关推荐
落羽的落羽1 小时前
【C++】简单介绍lambda表达式
c++·学习
charlie1145141911 小时前
前端三件套简单学习:HTML篇1
开发语言·前端·学习·html
我命由我123451 小时前
Photoshop - Photoshop 创建图层蒙版
运维·学习·ui·课程设计·设计·ps·美工
我登哥MVP1 小时前
Java 网络编程学习笔记
java·网络·学习
LiuYaoheng2 小时前
【Android】View 的基础知识
android·java·笔记·学习
小苏兮3 小时前
【C++】类与对象(下)
开发语言·c++·学习
一位搞嵌入式的 genius3 小时前
ES6 核心特性详解:从变量声明到函数参数优化
前端·笔记·学习
77qqqiqi4 小时前
学习结构体
c语言·学习
肥肠可耐的西西公主4 小时前
后端(fastAPI)学习笔记(CLASS 1):扩展基础
笔记·学习·fastapi
對玛祷至昏5 小时前
算法学习路径
学习·算法·排序算法